强化学习系列之Policy Gradient算法

news/2024/5/18 22:27:31 标签: PPO, 强化学习, chatgpt, PPO2, 人工智能

一. 背景

1.1 基础组成部分

强化学习里面包含三个部件：Actor，environment，reward function
Actor : 表示角色，是能够被玩家控制的。
- Policy of Actor：在人工智能中，Policy $\pi$ 可以表示为一个神经网络，参数为 $\theta$

http://www.niftyadmin.cn/n/352814.html

实对称矩阵必可相似对角化的证明

引理 1： 实对称矩阵的特征值都是实数。证明：设 A A A 为 n n n 阶实对称阵， λ 0 ∈ C \lambda_0 \in C λ0∈C 是 A A A 的任一特征值， α ( a 1 , a 2 , ⋯ , a n ) T ∈ C n \alpha (a_1, a_2, \cdots, a_n)^T \in C^…

C语言——存储类型

目录 1. auto 自动型2. static 静态2.1 修饰变量要知道👇（数据在Linux内核中的分配图） 2.2 static 的特点⭐⭐⭐⭐⭐：2.2 修饰函数 3. extern4. register 寄存器类型存储类型存储类型有：auto static extern register…

【数项级数】敛散性判别

阅读本篇之前，建议可以先看一下上一篇文章哦！ 【数项级数】无穷个数相加一定是个数吗？ 柯西收敛准则判断级数敛散性基本思想利用柯西收敛准则判断级数是否收敛推论：定理基本思想在上一篇文章中，初识数项级数&#…

C++11 列表初始化initializer_list

引子 C11，是继C98后的一次有力更新，引进了很多好用的语法，STL也添加了几个新容器，也解决了很多的问题。本篇博客就学习一下C11列表初始化的新语法和 initializer_list 文章目录引子一. 列表初始化二. initializer_list结束语一…

k8s进阶3——资源配额、资源限制

文章目录一、基本了解1.1 资源计算1.2 调度机制1.3 服务质量等级二、资源配额 ResourceQuota2.1 支持的限制资源2.2 配额作用域2.3 资源配额选型2.3.1 计算资源配额2.3.2 存储资源配额2.3.3 对象数量配额三、资源限制 LimitRange3.1 限制资源大小值3.2 设置限制默认值3.3 限…