强化学习系列之Policy Gradient算法

news/2024/5/18 22:27:31 标签: PPO, 强化学习, chatgpt, PPO2, 人工智能

一. 背景

1.1 基础组成部分

  • 强化学习里面包含三个部件:Actor,environment,reward function
    在这里插入图片描述

  • Actor : 表示角色,是能够被玩家控制的。

    • Policy of Actor:在人工智能中,Policy π \pi π 可以表示为一个神经网络,参数为 θ \theta

http://www.niftyadmin.cn/n/352814.html

相关文章

实对称矩阵必可相似对角化的证明

引理 1: 实对称矩阵的特征值都是实数。 证明:设 A A A 为 n n n 阶实对称阵, λ 0 ∈ C \lambda_0 \in C λ0​∈C 是 A A A 的任一特征值, α ( a 1 , a 2 , ⋯ , a n ) T ∈ C n \alpha (a_1, a_2, \cdots, a_n)^T \in C^…

C语言——存储类型

目录 1. auto 自动型2. static 静态2.1 修饰变量要知道👇(数据在Linux内核中的分配图) 2.2 static 的特点⭐⭐⭐⭐⭐:2.2 修饰函数 3. extern4. register 寄存器类型 存储类型 存储类型有:auto static extern register…

【数项级数】敛散性判别

阅读本篇之前,建议可以先看一下上一篇文章哦! 【数项级数】无穷个数相加一定是个数吗? 柯西收敛准则判断级数敛散性 基本思想利用柯西收敛准则判断级数是否收敛推论:定理 基本思想 在上一篇文章中,初识数项级数&#…

C++11 列表初始化initializer_list

引子 C11,是继C98后的一次有力更新,引进了很多好用的语法,STL也添加了几个新容器,也解决了很多的问题。本篇博客就学习一下C11列表初始化的新语法和 initializer_list 文章目录 引子一. 列表初始化二. initializer_list结束语 一…

k8s进阶3——资源配额、资源限制

文章目录 一、基本了解1.1 资源计算1.2 调度机制1.3 服务质量等级 二、资源配额 ResourceQuota2.1 支持的限制资源2.2 配额作用域2.3 资源配额选型2.3.1 计算资源配额2.3.2 存储资源配额2.3.3 对象数量配额 三、资源限制 LimitRange3.1 限制资源大小值3.2 设置限制默认值3.3 限…

MapReduce【自定义OutputFormat】

MapReduce默认的输出格式为TextOutputFormat,它的父类是FileOutputFormat,即按行来写,且内容写到一个文本文件中去,但是并不能满足我们实际开发中的所有需求,所以就需要我们自定义OutPutFormat。 自定义OutPutFormat 输出数据到…

OpenGL之着色器

文章目录 什么是着色器数据类型输入与输出Uniform三角形渐变色例子从文件中读取 什么是着色器 着色器是使用一种叫GLSL的类C语言写成的。GLSL是为图形计算量身定制的,它包含一些针对向量和矩阵操作的有用特性。着色器的开头总是要声明版本,接着是输入和输…

公司招人,面了一个5年经验不会自动化的测试人,他凭什么要18K?

在深圳这家金融公司也待了几年,被别人面试过也面试过别人,大大小小的事情也见识不少,今天又是团面的一天, 一百多个人都聚集在一起,因为公司最近在谈项目出来面试就2个人,无奈又被叫到面试房间。 整个过程…