深度强化学习算法的参数更新时机

news/2024/5/18 22:27:28 标签: 强化学习, 人工智能, 算法

深度强化学习算法的参数更新时机

深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。

算法参数更新时机架构
DQN先收集一定经验,然后每步更新Off Policy Value-Based
DDPG先收集一定经验,然后每步更新Off Policy Actor-Critic
TD3先收集一定经验,然后每步更新Off Policy Actor-Critic
SAC先收集一定经验,然后每步更新Off Policy Actor-Critic
REINFORCE每步更新On Policy Policy Gradient
VPG每个episode更新一次On Policy Actor-Critic
A2C/A3C每步更新On Policy Actor-Critic
PPO每个episode采集结束后,集中抽样更新多次On Policy Actor-Critic
TRPO每个episode采集结束后,集中抽样更新多次On Policy Actor-Critic

http://www.niftyadmin.cn/n/5004164.html

相关文章

Golang web 项目中实现自定义 recovery 中间件

为什么需要实现自定义 recovery 中间件? 在 Golang 的 Web 项目中,自定义 recovery 中间件是一种常见的做法,用于捕获并处理应用程序的运行时错误,以避免整个应用程序崩溃并返回对应格式的响应数据。 很多三方 web 框架&#xf…

Java Stream与多线程

Java Stream 1. 问题引入 学习了尚硅谷的JUC,周阳老师讲的商城比较价格的案例,自己模拟了一个多线程的demo, 多线程处理任务并且汇总结果,出现了疑问,实例代码放在下面,读者有兴趣的话可ctrlcv玩一玩 如下是自定义的任…

MySQL的故事——创建高性能的索引

创建高性能的索引 文章目录 创建高性能的索引一、索引基础二、索引的优点三、高性能的索引策略 一、索引基础 要理解MySQL中索引是如何工作的,最简单的方法就是去看看一本书的“索引 ”部分:如果在一本书中找到某个特定主题,一般会先看书的“…

【2023年11月第四版教材】第10章《进度管理》(第四部分)

第10章《进度管理》(第四部分) 8 制定进度计划8.1 资源优化★★★8.2 数据分析★★★8.3 提前量和滞后量(22上30)8.4 进度压缩★★★8.5 计划评审技术★★★ (20下35) (21上35) &…

php://filter协议在任意文件读取漏洞(附例题)

php://filter php://fiter 中文叫 元器封装,咱也不知道为什么这么翻译,目前我的理解是可以通过这个玩意对上面提到的php IO流进行处理,及现在可以对php的 IO流进行一定操作。 过滤器:及通过php://filter 对php 的IO流进行的具体…

网络协议从入门到底层原理学习(二)—— Mac地址/IP地址

文章目录 网络协议从入门到底层原理学习(二)—— Mac地址/IP地址1、MAC地址2、MAC地址的表示格式3、MAC地址表4、MAC地址操作5、MAC地址的获取6、ARP7、ICMP8、IP地址9、IP地址的分类和格式10、不同分类的IP地址的范围11、特殊 IP 地址12、子网掩码13、子…

SSE 和 WebSocket 应用

SSE 和 WebSocket 应用 一.SSE 和 WebSocket 对比二.SSE 和 WebSocket 调试SpringBoot 下 SSE 应用1.依赖2.启动类3.接口类4.Html 测试5.测试结果 SpringBoot 下 WebSocket 应用1.依赖2.启动类3.WS 切点配置4.WS连接类配置5.WS Html 测试6.测试结果 一.SSE 和 WebSocket 对比 …

C 与 C++ 如何引入 mysql 客户端

目录 拥有本地账户 安装库 mysql 头文件引入 mysql 的常用函数 想要用语言引入 mysql 的数据库,需要做两件准备工作。 拥有本地账户 首先创建用户 connecter mysql> create user connecterlocalhost identified by **********; Query OK, 0 rows affected …