多智能体强化学习理论与算法总结

news/2024/5/18 21:47:48 标签: 强化学习

多智能体强化学习理论与算法总结

先搞明白on-policy和off-policy
强化学习】一文读懂,on-policy和off-policy
我的理解:on-policy就是使用最新的策略来执行动作收集数据,off-policy的训练数据不是最新策略收集的。on-policy也是使用同个策略网络去采样动作并执行,更新Q值也需要用到该策略网络。

1.基础概念理解,多智体的状态,观测,奖励等需要重新定义:
强化学习——多智能体强化学习
强化学习笔记:Policy-based Approach

2.最新多智能体强化学习方法总结:
最新多智能体强化学习方法【总结】
这里不错Transformer讲解:
Transformer讲解

3.一些基础算法(PPO,DQN等)步骤
DQN——PPO流程总结
强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】
进阶篇—PPO代码逐行分析

4.TD,GAE优势函数等定义:
GAE 广义优势估计

5.一些经典的多智能算法的局限性总结:
【一】最新多智能体强化学习方法【总结】

6.需要掌握的协作类(合作)的多智体算法:
一、基于价值函数值分解的方法:
(1)COMA算法:
【COMA】一种将团队回报拆分为独立回报的多智能体算法
COMA算法解析: Counterfactual Multi-Agent Policy Gradients

(2)VDN/QMIX/QTRAN/Qatten算法的介绍和局限性:
多智能体深度强化学习值分解方法总结(1)—VDN/QMIX/QTRAN/Qatten

(3)QMIX算法:
多智能体强化学习入门Qmix
代码:https://blog.csdn.net/tianjuewudi/article/details/121005721

(4)QTRAN算法:
QTRAN 算法详解(VDN和QMIX的升级版本)

(5)Qatten算法:
Qatten

(6)MAVEN算法:

(7)Weighted QMIX算法:
从 QMIX 到 WQMIX —— Weighted QMIX 算法详解

(8)QPLEX算法:
多智能体强化学习2021论文(五)QPLEX

最后,有个大佬调研:
多智能体强化学习值函数分解论文调研
多智能体强化学习之值函数分解:VDN、QMIX、QTRAN系列优缺点分析

二、基于PPO的方法:
(1)MAPPO
多智能体强化学习之MAPPO理论解读

在这里插入图片描述
(2)HAPPO

(3) MAT

三、好代码:
https://github.com/marlbenchmark/on-policy
https://github.com/hijkzzz/pymarl2

四、一些论文总结
https://www.zhihu.com/people/sanmuyansan-mu-yang/columns

五、自动驾驶做多智能体强化学习的仿真软件
carla(不推荐,不够轻量)
metadrvie:https://github.com/metadriverse/metadrive
smart:https://github.com/huawei-noah/SMARTS


http://www.niftyadmin.cn/n/1004191.html

相关文章

vite项目开发npm包时调用其它依赖报错

我们在封装npm包时有时候会在npm包中添加外部依赖,在webpack模式下是没有问题的,但在vite模式下当我们在项目中使用封装的npm包时,启动会报外部依赖的相关错误,此时我们需要在项目 vite.config.ts 文件中的 defineConfig 添加 opt…

使用 ISuperObject 库json的 Delphi7 应用程序示例

下面是一个使用 ISuperObject 库json的 Delphi7 应用程序示例,包含创建、新增、修改、删除、排序等操作: unit MainForm;interfaceusesWindows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,Dialogs, StdCtrls, SuperObject;typ…

软考02原码反码和补码

文章目录 前言一、原码二、反码三、补码总结 前言 机器是通过二进制来存储数据的,最好是在学习了软考01进制转换基础上开始学习原码反码和补码。 一、原码 原码通常以固定位数表示,不足补0,由于需要区分正负数所以,最高位为符号位(0为正&…

centos安装nginx(编译安装方式)

1、随便建一个目录,进入,然后下载nginx wget -c https://nginx.org/download/nginx-1.18.0.tar.gz 2、下载下来是个解压包,执行下面命令解压 tar -zxvf nginx-1.18.0.tar.gz 3、进入nginx目录 cd nginx-1.18.0/4、切换root用户&#xf…

idea 修改Tool Windows后新建项目又恢复默认设置

我们可能会根据自己的喜好修改idea的工具窗口,但是每次新建项目它又会重置了,解决办法如下:

本地axure做好的展示网站如何发布到互联网上访问?快解析端口映射

Axure 是产品经理常用的原型设计工具,设计的原型导出的html就是一个静态网站的文件,可以部署在服务器、对象存储上做成一个静态网站,然后通过 快解析免费域名(或自己的独立域名)外网访问,用它就可以完成从设…

为什么要提前报考CSPM项目管理专业人员能力评价

2021年10月,中共中央、国务院发布的《国家标准化发展纲要》明确提出构建多层次从业人员培养培训体系,开展专业人才培养培训和国家质量基础设施综合教育。建立健全人才的职业能力评价和激励机制。由中国标准化协会(CAS)组织开展的项…

Git入门级指南

Git入门级指南 在软件开发和版本控制中,Git是一种非常流行且强大的工具。本文将为你提供关于Git的基本知识,并提 供一些实例来演示如何正确使用Git来管理代码。 关于git的简介 Git是一种分布式版本控制系统,它可以跟踪和管理项目中的代码…