重要性采样

重要性采样

news/2024/5/18 23:51:23 标签: 强化学习, Off Policy

重要性采样

前言

离散型随机变量 $X$ ，我们可以通过以下方法求取其期望：

直接计算法，需要知道概率分布：
$\mathbb{E}(X)=\sum_{x\in X}\left[p(x)\cdot x\right]$
采样计算，这时即使 $X$ 概率分布未知，依据大数定律，当采样次数够大时，仍然可以求取期望
$\mathbb{E}(X)=\frac{1}{n}\lim_{n\to +\infty}\sum_{i=0}^{n-1} x_i$

连续型随机变量 $X$

直接计算，需要 $f$ 表达式

$\mathbb{E}(X)=\int_x x\cdot f(x)dx$

抽样(蒙特卡洛积分估计)，这里不多做介绍

重要性采样

思想：如果已知随机变量 $X\sim p_0$ ，在 $p_0$ 下随机采样了一批数据 $\{x_i\}\sim p_0$ ，现在要求随机变量 $X\sim p_1$ 下的期望，则：
$\mathbb{E}_{X\sim p_1}[X]=\sum_x p_1(x)\cdot x=\sum_x p_0(x) \frac{p_1(x)}{p_0(x)}\cdot x=\mathbb{E}_{X\sim p_0}[f(X)]$
那么就有如下几个问题：

对于离散型随机变量，为什么 $p_1(x)$ 已知，不直接计算期望呢？
- 因为有时候我们已经根据 $p_0$ 采样了一些数据，再用 $p_1$ 重新采样计算一遍，会增加很多计算量。
- 因为有些时候不方便对 $p_1$ 采样
- 在强化学习中，我们根据一个策略采样，通过重要性采样可以求出另一个策略的期望，是一种On Policy向Off Policy转换的思想。
对于连续型随机变量，为什么 $p_1(x)$ 已知，不直接计算期望呢？

理论上不可能完全求出概率密度函数，所以无法从理论上计算期望，只能估计。

例如，如果我们通过神经网络来表示 $f$ ，那么对任意的输入 $x$ ，我们都可以求出 $f (x)$ ，但是这并不代表我们求出 $f$ 的函数表达式，更无法进一步求积分。我们只是能从数值上计算出 $f (x)$ ，神经网络本身就是一个黑盒。

综上所述，重要性采样使得我们能够从behavior policy采样，然后去估计target policy的期望，从而使得On Policy的算法转换为Off Policy

http://www.niftyadmin.cn/n/5010748.html

相关文章

批量上传图片添加水印

批量上传图片添加水印

思路： 1、循环图片列表，批量添加水印。 2、与之对应的html页面也要魂环并添加水印。代码实现： <view style"width: 0;height: 0;overflow: hidden;position:fixed;left: 200%;"><canvas v-for"(item,index) in …

阅读更多...

concurrentHashMap jdk1.8

concurrentHashMap jdk1.8

文章目录属性：内部类：Node链表节点：ForwardingNode节点：TreeNode节点：TreeBin节点： put方法treeifyBin方法：tryPresize方法：addCount方法helpTransfer方法：transfer方法…

阅读更多...

G. Replace With Product Codeforces Round 895 (Div. 3)

G. Replace With Product Codeforces Round 895 (Div. 3)

Problem - G - Codeforces 题目大意：有一个长度为n的数组a，要求选出一个区间[l,r]，将这个区间内的所有数删掉，替换成这些数的乘积，要求令操作后的整个数组和最大，求操作的区间 1<n<2e5;1<a[i]&l…

阅读更多...

Java版企业电子招标采购系统源码—企业战略布局下的采购寻源

Java版企业电子招标采购系统源码—企业战略布局下的采购寻源

功能模块： 待办消息，招标公告，中标公告，信息发布描述： 全过程数字化采购管理，打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力，为外部供…

阅读更多...

QCefView 的编译

QCefView 的编译

CEF QCefView编译学习QT加载网页时了解到CEF与QCefView, QCefView是一个与Chromium Embedded Framework集成的Qt第三方开源库，LGPL许可，可以在项目中免费使用，功能类似CEF、QWebEngineView，提供C和web交互的能力。官方网址&a…

阅读更多...

制作周变化日程组件

制作周变化日程组件

要实现的样子实现的功能： 上面年月左右切换至改变月份，改变后显示月份的1号在的一周从周天开始下面周历左右切换周，当存在1号的时候月份变为1号的月份和年份。点击日程时间下面的日程变化（日程上的点代表有日程信息&#xff09…

阅读更多...

JAR will be empty - no content was marked for inclusion!

JAR will be empty - no content was marked for inclusion!

现象在对自建pom依赖组件打包时，出现JAR will be empty - no content was marked for inclusion!错误。方案在pom中怎么加packaging标签内容为pom，标识只打包pom文件 <?xml version"1.0" encoding"UTF-8"?> ...<grou…

阅读更多...

索尼 toio™应用创意开发征文|一步两步三步模拟浇花系统

索尼 toio™应用创意开发征文|一步两步三步模拟浇花系统

目录 1.toio™介绍 2、创意分析 2.1 创意设计 2.2 创意落地 3、创意实现 3.1 环境安装 3.2 核心玩法总结 1.toio™介绍索尼的toio™是一款启发创意的机器人产品，旨在通过与真实世界的互动，为各年龄段的用户提供娱乐体验。这款产品具有高度的灵…

阅读更多...

最新文章