机器学习——PPO补充

news/2024/5/18 22:27:33 标签: 机器学习, 人工智能, 强化学习, PPO

On-policy vs Off-policy

在这里插入图片描述

  • 今天跟环境互动,并学习是on-policy

  • 只是在旁边看,就是Off-policy
    在这里插入图片描述

  • 从p中选q个重要的,需要加一个weight p(x)/q(x)

  • p和q不能相差太多
    在这里插入图片描述
    在这里插入图片描述

  • 采样数太少导致分布差很多,导致weight发生变化

On-Policy -> Off-Policy

在这里插入图片描述
在这里插入图片描述

得到新的loss函数

PPO_18">PPO

在这里插入图片描述

  • 衡量 θ \theta θ θ ′ \theta' θ之间的kl散度,衡量二者行为上的相似性,而不是参数上的相似性

在这里插入图片描述

  • Adaptive KL Penalty

在这里插入图片描述

  • 绿色的线是第一项,蓝色是第二项

在这里插入图片描述


http://www.niftyadmin.cn/n/5419975.html

相关文章

操作系统:环境变量

目录 1.命令行参数 1.1.概念引入 1.2.命令行参数概念 2.环境变量 2.1.概念引入 2.2.环境变量概念 2.2.1常见的环境变量 2.3. 如何获取环境变量 2.3.1.Linux操作系统 2.3.2.代码获取 2.3.3.系统调用 2.4.环境变量的来源 2.5.环境变量的全局性 1.命令行参数 1.1.概念…

力扣图论篇

以下思路来自代码随想录以及官方题解。 文章目录 797.所有可能的路径200.岛屿数量130.被围绕的区域1020.飞地的数量 797.所有可能的路径 给你一个有 n 个节点的 有向无环图(DAG),请你找出所有从节点 0 到节点 n-1 的路径并输出(不…

微信小程序-分包

分包 1.什么是分包 分包指的是把一个完整的小程序项目,按照需求划分为不同的子包,在构建时打包成不同的分包,用户在使用时按需进行加载。 2.分包的好处 对小程序进行分包的好处主要有以下两点: 可以优化小程序首次启动的下载时间…

OpenCV读取tensorflow神经网络模型:SavedModel格式转为frozen graph的方法

本文介绍基于Python的tensorflow库,将tensorflow与keras训练好的SavedModel格式神经网络模型转换为frozen graph格式,从而可以用OpenCV库在C 等其他语言中将其打开的方法。 如果我们需要训练并使用一个神经网络模型,一般情况下都是首先借助Py…

Spring Boot 中使用 Redis + Aop 进行限流

Spring Boot 中使用 Redis 进行限流,通常你可以采用如下几种方式: 令牌桶算法(Token Bucket)漏桶算法(Leaky Bucket)固定窗口计数器(Fixed Window Counter)滑动日志窗口&#xff08…

-bash: ./xxx.sh: /bin/sh^M: bad interpreter: No such file or directory

问题: 解决Linux服务器执行命令时出现-bash: ./xxx.sh: /bin/sh^M: bad interpreter: No such file or directory报错 原因: 说明这个文件编码方式是windows编辑的,必须转化格式为unix格式 解决方案: vim [脚本名称].sh :set…

【C语言】【LeetCode】循环队列

目录 (一)题目描述 (二)数据结构的选择 (三)函数接口的分析实现 正文开始: (一)题目描述 题目链接:622. 设计循环队列 设计你的循环队列实现。 循环队列是…

软考 系统架构设计师之回归及知识点回顾(3)

接前一篇文章:软考 系统架构设计师之回归及知识点回顾(2) 继续回顾一下之前已经介绍和讲解过的系统架构设计师中的知识点: 7. 净室软件工程 净室(Cleaning Room)软件工程是一种应用数学与统计学理论&…