【机器学习】强化学习总结

news/2024/5/19 1:12:22 标签: 机器学习, 强化学习, 蒙特卡罗决策

http://www.niftyadmin.cn/n/811168.html

相关文章

Python全排列

http://www.jb51.net/article/46631.htm 比如我们有一个列表[1,2,3],想要得到里面所有的排列组合的可能。 按照排列组合的知识,先固定住0的位置,将[2,3]排列组合,再接到[1]的后面。 这显然是递归的思想。 理解递归代码的关键就…

【机器学习】从贝叶斯角度理解正则化缓解过拟合

从贝叶斯角度理解正则化缓解过拟合 参考: LR正则化与数据先验分布的关系? - Charles Xiao的回答 - 知乎 原始的Linear Regression 假设有若干数据 (x1,y1),(x2,y2),...,(xm,ym),我们要对其进行线性回归。也就是得到一个方程 yωTxϵ注意,…

牛顿法及拟牛顿法

1 牛顿法 参考:http://blog.csdn.net/itplus/article/details/21896453 1.1 原始牛顿法 考虑数据是一维的优化问题: x∗minxf(x)(1)若当前 x已迭代到 xk ,得到的值是 f(xk),在 xk处做二阶泰勒展开: φ(x)f(xk)f′(x…

【机器学习】逻辑回归(Linear Regression)模型推导

LR中文翻译作逻辑斯蒂回归,用于二分类。为什么回归和分类搅在一起了呢。因为可以这样想:线性回归 yθTx得到的结果是一个实数。如果我们将这个结果“压缩”到 [0,1] 之间,那么就可以表示概率接近1的程度,进而可以用来二分类。 最简…

【机器学习】Softmax推导

LR可以看成是Softmax的特例。 LR主要是用于二分类,如果面临的是多分类问题,可以用Softmax。Softmax通常也是深度学习图像识别网络的最后一层。 在LR中,参数 θ是一个向量,而在Softmax中,参数可以看成是一个矩阵。也就是…

【机器学习】支持向量机SVM原理及推导

参考:http://blog.csdn.net/ajianyingxiaoqinghan/article/details/72897399 部分图片来自于上面博客。 0 由来 在二分类问题中,我们可以计算数据代入模型后得到的结果,如果这个结果有明显的区别,这就说明模型可以把数据分开。那…

【机器学习】最大熵模型推导

1 基本思想 先说说熵的定义,假设我们有随机变量 x,其概率分布为 p(x) ,则其熵为: H(P(x))−∑xP(x)logP(x)条件熵: H(P(y|x))−∑xP(x)∑yP(y|x)logP(y|x)可以证明,在概率相等的时候,熵可以达到最大值。也…

【机器学习】EM算法推导

1 为什么要用EM算法 有时,我们用极大似然的时候,公式中可能会有隐变量: L(θ)∏i1mp(yi;θ)∏i1m[∑zp(yi,z;θ)]∏i1m[∑zp(z;θ)p(yi|z;θ)]也就是 y 取什么值是由隐含的变量 z 决定的。举个栗子:有三个硬币,ABC&am…