机器学习——PPO补充

news/2024/5/18 22:27:33 标签: 机器学习, 人工智能, 强化学习, PPO

On-policy vs Off-policy

在这里插入图片描述

今天跟环境互动，并学习是on-policy
只是在旁边看，就是Off-policy
从p中选q个重要的，需要加一个weight p(x)/q(x)
p和q不能相差太多
采样数太少导致分布差很多，导致weight发生变化

On-Policy -> Off-Policy

在这里插入图片描述

得到新的loss函数

PPO_18">PPO

在这里插入图片描述

衡量 $\theta$ 和 $\theta'$ 之间的kl散度，衡量二者行为上的相似性，而不是参数上的相似性

在这里插入图片描述

Adaptive KL Penalty

在这里插入图片描述

绿色的线是第一项，蓝色是第二项

在这里插入图片描述

http://www.niftyadmin.cn/n/5419975.html

操作系统：环境变量

目录 1.命令行参数 1.1.概念引入 1.2.命令行参数概念 2.环境变量 2.1.概念引入 2.2.环境变量概念 2.2.1常见的环境变量 2.3. 如何获取环境变量 2.3.1.Linux操作系统 2.3.2.代码获取 2.3.3.系统调用 2.4.环境变量的来源 2.5.环境变量的全局性 1.命令行参数 1.1.概念…

力扣图论篇

以下思路来自代码随想录以及官方题解。文章目录 797.所有可能的路径200.岛屿数量130.被围绕的区域1020.飞地的数量 797.所有可能的路径给你一个有 n 个节点的有向无环图（DAG），请你找出所有从节点 0 到节点 n-1 的路径并输出（不…

微信小程序-分包

分包 1.什么是分包分包指的是把一个完整的小程序项目，按照需求划分为不同的子包，在构建时打包成不同的分包，用户在使用时按需进行加载。 2.分包的好处对小程序进行分包的好处主要有以下两点： 可以优化小程序首次启动的下载时间…

OpenCV读取tensorflow神经网络模型：SavedModel格式转为frozen graph的方法

本文介绍基于Python的tensorflow库，将tensorflow与keras训练好的SavedModel格式神经网络模型转换为frozen graph格式，从而可以用OpenCV库在C 等其他语言中将其打开的方法。如果我们需要训练并使用一个神经网络模型，一般情况下都是首先借助Py…

Spring Boot 中使用 Redis + Aop 进行限流

Spring Boot 中使用 Redis 进行限流，通常你可以采用如下几种方式： 令牌桶算法（Token Bucket）漏桶算法（Leaky Bucket）固定窗口计数器（Fixed Window Counter）滑动日志窗口&#xff08…

-bash: ./xxx.sh: /bin/sh^M: bad interpreter: No such file or directory

问题： 解决Linux服务器执行命令时出现-bash: ./xxx.sh: /bin/sh^M: bad interpreter: No such file or directory报错原因： 说明这个文件编码方式是windows编辑的，必须转化格式为unix格式解决方案： vim [脚本名称].sh :set…

【C语言】【LeetCode】循环队列

目录 （一）题目描述 （二）数据结构的选择 （三）函数接口的分析实现正文开始： （一）题目描述题目链接：622. 设计循环队列设计你的循环队列实现。循环队列是…

软考系统架构设计师之回归及知识点回顾（3）

接前一篇文章：软考系统架构设计师之回归及知识点回顾（2） 继续回顾一下之前已经介绍和讲解过的系统架构设计师中的知识点： 7. 净室软件工程净室（Cleaning Room）软件工程是一种应用数学与统计学理论&…