【机器学习】强化学习总结

news/2024/5/19 1:12:22 标签: 机器学习, 强化学习, 蒙特卡罗决策

http://www.niftyadmin.cn/n/811168.html

Python全排列

http://www.jb51.net/article/46631.htm 比如我们有一个列表[1,2,3]，想要得到里面所有的排列组合的可能。按照排列组合的知识，先固定住0的位置，将[2,3]排列组合，再接到[1]的后面。这显然是递归的思想。理解递归代码的关键就…

【机器学习】从贝叶斯角度理解正则化缓解过拟合

从贝叶斯角度理解正则化缓解过拟合参考: LR正则化与数据先验分布的关系？ - Charles Xiao的回答 - 知乎原始的Linear Regression 假设有若干数据 (x1,y1),(x2,y2),...,(xm,ym)，我们要对其进行线性回归。也就是得到一个方程 yωTxϵ注意，…

牛顿法及拟牛顿法

1 牛顿法参考：http://blog.csdn.net/itplus/article/details/21896453 1.1 原始牛顿法考虑数据是一维的优化问题： x∗minxf(x)(1)若当前 x已迭代到 xk ，得到的值是 f(xk)，在 xk处做二阶泰勒展开： φ(x)f(xk)f′(x…

【机器学习】逻辑回归（Linear Regression）模型推导

LR中文翻译作逻辑斯蒂回归，用于二分类。为什么回归和分类搅在一起了呢。因为可以这样想：线性回归 yθTx得到的结果是一个实数。如果我们将这个结果“压缩”到 [0,1] 之间，那么就可以表示概率接近1的程度，进而可以用来二分类。最简…

【机器学习】Softmax推导

LR可以看成是Softmax的特例。 LR主要是用于二分类，如果面临的是多分类问题，可以用Softmax。Softmax通常也是深度学习图像识别网络的最后一层。在LR中，参数 θ是一个向量，而在Softmax中，参数可以看成是一个矩阵。也就是…

【机器学习】支持向量机SVM原理及推导

参考：http://blog.csdn.net/ajianyingxiaoqinghan/article/details/72897399 部分图片来自于上面博客。 0 由来在二分类问题中，我们可以计算数据代入模型后得到的结果，如果这个结果有明显的区别，这就说明模型可以把数据分开。那…

【机器学习】最大熵模型推导

1 基本思想先说说熵的定义，假设我们有随机变量 x，其概率分布为 p(x) ，则其熵为： H(P(x))−∑xP(x)logP(x)条件熵： H(P(y|x))−∑xP(x)∑yP(y|x)logP(y|x)可以证明，在概率相等的时候，熵可以达到最大值。也…

【机器学习】EM算法推导

1 为什么要用EM算法有时，我们用极大似然的时候，公式中可能会有隐变量： L(θ)∏i1mp(yi;θ)∏i1m[∑zp(yi,z;θ)]∏i1m[∑zp(z;θ)p(yi|z;θ)]也就是 y 取什么值是由隐含的变量 z 决定的。举个栗子：有三个硬币，ABC&am…

【机器学习】强化学习总结

相关文章