强化学习中on_plicy和off_policy最大的区别

news/2024/5/18 22:17:03 标签: 强化学习

策略更新方法可以分为两类:On-policy(在线策略)和Off-policy(离线策略)。它们之间的主要区别在于如何使用经验(状态、动作、奖励和下一个状态)来更新智能体的策略。以下是它们之间的主要区别:

  1. 数据来源

    • On-policy方法:仅使用当前策略生成的经验数据更新策略。这意味着智能体在每次更新策略后,必须使用新策略收集新的经验数据。想象一下,你在学习打篮球,每次学到新技能后,你必须重新练习,以便更好地掌握新技能。
    • Off-policy方法:可以使用任何策略(包括非当前策略)生成的经验数据来更新当前策略。这使得离线策略方法可以有效地重用之前收集的经验数据,从而降低数据采样的要求。这就像你在学习打篮球时,可以观察别人的比赛,从他们的经验中学习和提高。
  2. 算法示例

    • On-policy方法的典型例子是:REINFORCE算法,Actor-Critic算法,PPO(Proximal Policy Optimization,近端策略优化)算法等。
    • Off-policy方法的典型例子是:Q-learning,DQN(Deep Q-Networks),DDPG(Deep Deterministic Policy Gradient),SAC(Soft Actor-Critic)等。
  3. 样本效率

    • On-policy方法通常需要更多的样本才能学习有效的策略,因为它们在每次策略更新后必须重新采样新数据。
    • Off-policy方法由于可以利用历史经验数据,通常具有更高的样本效率。
  4. 探索-利用权衡

    • On-policy方法中,智能体在每次更新策略后都会按照新策略探索环境。这使得智能体在学习过程中自然地进行探索利用。在学习过程中,智能体需要平衡尝试新行为(探索)与利用已知优势(利用)之间的权衡。
    • Off-policy方法则需要额外的机制来确保探索,例如使用ε-greedy策略或其他随机策略进行行动选择。这些策略可以与当前策略分开,在学习过程中独立地进行探索。

总之,On-policy和Off-policy方法之间的最大区别在于它们如何使用经验数据来更新策略。On-policy方法仅使用当前


http://www.niftyadmin.cn/n/229927.html

相关文章

Python入门教程+项目实战-9.4节: 字符串的格式化

目录 9.4.1 理解格式化 9.4.2 使用f-string进行格式化 9.4.3 使用格式化符号进行格式化 9.4.4 使用format方法进行格式化 9.4.5 知识要点 9.4.6 系统学习python 9.4.1 理解格式化 同学们比较熟悉的是磁盘格式化,将磁盘格式化以后,磁盘中的文件全部…

LeetCode 特训 ---- Week1

目录 LeetCode 特训 --- Week1 两数之和 最长回文子串 删除有序数组中的重复项 删除有序数组中的重复项Ⅱ 删除链表中的重复元素 移动0 旋转链表 分隔链表 快慢指针(前后指针)用的好,链表,数组起码轻松打十个。 LeetCode…

Sentinel 工作主流程

Overview 在 Sentinel 里面,所有的资源都对应一个资源名称以及一个 Entry。Entry 可以通过对主流框架的适配自动创建,也可以通过注解的方式或调用 API 显式创建;每一个 Entry 创建的时候,同时也会创建一系列功能插槽(…

图解HTTP阅读笔记:第4章 返回结果的HTTP状态码

《图解HTTP》第四章读书笔记 图解HTTP第4章:返回结果的HTTP状态码4.1 状态码告知从服务器端返回的请求结果4.2 2XX成功4.2.1 200 OK4.2.2 204 No Content4.2.3 206 Parital Content4.3 3XX重定向4.3.1 301 Moved Permanently4.3.2 302 Found4.3.3 303 See Other4.3.…

详解FreeRTOS中的软件定时器

软件定时器用于让某个任务定时执行,或者周期性执行。比如设定某个时间后执行某个函数,或者每隔一段时间执行某个函数。由软件定时器执行的函数称为软件定时器的回调函数。 参考资料: 《Mastering the FreeRTOS™ Real Time Kernel》——Cha…

kotlin的一些标准函数

文章目录1. this 上下文withrunapply2. it 上下文letalso3. 其他好用的函数mapfilterreduceflatMapkotlin的标准函数有 run,let,with 等等,平时用的时候没有太在意他们之间的差异,现在来总结对比一下。 将他们分成 this 上下文和 …

2023爱分析·中国城市轨交智能运维市场厂商评估报告:逸迅科技

报告编委 张扬 爱分析联合创始人&首席分析师 王鹏 爱分析分析师 目录 1. 研究背景 2. 市场综述 3. 市场分析 4. 厂商评估:逸迅科技 5. 最佳实践案例 1. 研究背景 轨道交通是我国国民经济的命脉和交通运输的骨干网络,不仅承担了绝大…

慌了!ChatGPT吃我饭,还要掀我碗?

ChatGPT面世,各种被AI取代“失业言论”笼罩在人们头顶,本文聚焦这一问题,推荐关注ChatGPT的小伙伴阅读。 一时间火爆全网的新晋网红——ChatGPT,就问:还有谁不认识? 谷歌计划在旗舰搜索引擎中添加对话式人…