深度强化学习（一）常识性普及

深度强化学习（一）常识性普及

news/2024/5/18 22:16:55 标签: 机器学习, 强化学习, 深度学习, 深度强化学习

文章目录

- 机器学习、强化学习、深度学习的侧重点
- 强化学习的简介
- - 强化学习的主要特征
  - 强化学习和机器学习的关系
  - 强化学习的发展历史
- 深度强化学习

一些参考的资料：
蘑菇书：https://datawhalechina.github.io/easy-rl/#/chapter1/chapter1
源代码：https://github.com/datawhalechina/easy-rl/releases/tag/v.1.0.3

机器学习、强化学习、深度学习的侧重点

机器学习（Machine learning）是一种通过让计算机从大量的数据中学习模式和规律，从而能够自动进行任务和做出决策的技术。机器学习是人工智能的分支，旨在是计算机能够在经验中学习和改进，而不需要明确的编程。机器学习可以分为监督学习、无监督学习、半监督学习和强化学习。
强化学习（Reinforcement Learning）是机器学习的一种，强化学习通过将智能体置于环境之中，让智能体和环境进行交互学习，通过环境的反馈（正向或者负向），从而调整决策，在不断的交互之中找到最优的解，强化学习追求长期回报的最大化。
深度学习（Deep Learning）也是一种机器学习的方法，通过构建和训练多层神经网络来模拟人脑的神经网络结构，从而实现对大量复杂的数据的自动学习和特征提取。

强化学习的简介

强化学习（Reinforcement Learning）注重让参与者（Agent）在与环境的互动中进行目标导向型学习。参与者可以根据当前所处的环境（State）以及某一个行动策略（policy）来选择一个行动（Action）来与环境进行一系列的互动。
有一些互动可以立即从环境中获取奖励（Reward），并且改变环境的状态，甚至可以改变后续的奖励；但是有一些互动可能会存在延迟。并且这些奖励有正向的也有负向的。
参与者可以根据环境的反馈来学习怎么最大化长期回报（Return），并且提取一个最优的策略，达到强化学习任务目标。

强化学习的主要特征

不断的试错学习
通过试错来与环境进行交互，并且根据环境的反馈来增强或者抑制行动，试错包括利用和探索的过程
- 利用是根据历史的经验进行学习，来选择执行能获得的最大收益的动作
- 探索就是尝试之前没有执行过的动作，期望获得超乎当前的总体收益
- 短期来讲，利用可以使得某一步的预期回报最大化
- 长远来讲，探索可以产生更大的长期回报
- 强化学习的挑战是在利用和探索之中找到平衡
强化学习追求长期回报的最大化(目标)，（长期回报是指从当前时刻（状态）到最终时刻（状态）得到的总奖励期望）

强化学习和机器学习的关系

机器学习包括强化学习、监督与无监督学习
强化学习和监督学习无监督学习一样都是从历史数据中进行学习，并且对未来做出预测的过程，三者都符合机器学习的定义

在这里插入图片描述

强化学习的发展历史

试错学习：从环境中获取结果的驱动力，控制环境朝着期望的目标前进。
最优控制：给定的约束条件下，寻求一个控制，使得给定系统的某一个指标达到最优
时序差分法

深度强化学习

深度学习将强化的决策能力和深度学习的感知能力结合，改进了传统强化学习难以应对大且连续行动和样本空间的问题。
深度强化学习将神经网络融入到强化学习的体系中，使参与者能在环境中学习可能的最佳行动，以实现其目标。它也将函数逼近（Function Approximation）和目标优化结合起来，将状态-动作对映射到期望的奖励，并以此作为行动的评估反馈，通过迭代，学习最佳策略。

在这里插入图片描述

http://www.niftyadmin.cn/n/5047223.html

相关文章

idea默认带的equals和hashcode引起的bug

idea默认带的equals和hashcode引起的bug

如果出现失效的问题，可以引用下面方式来实现去重

阅读更多...

JOSEF约瑟剩余电流继电器PFR-5 PFE-W-20 国产化改造ZLR-G81 ZCT-45

JOSEF约瑟剩余电流继电器PFR-5 PFE-W-20 国产化改造ZLR-G81 ZCT-45

系列型号： PFR-003剩余电流继电器 PFR-03剩余电流继电器 PFR-5剩余电流继电器 PFR-W-105互感器 PFR-W-140互感器 PFR-W-20互感器 PFR-W-210互感器 PFR-W-30互感器 PFR-W-35互感器 PFR-W-70互感器一、用途 PFR剩余电流继电器（以下简称继电器…

阅读更多...

Go-Python-Java-C-LeetCode高分解法-第七周合集

Go-Python-Java-C-LeetCode高分解法-第七周合集

前言本题解Go语言部分基于 LeetCode-Go 其他部分基于本人实践学习个人题解GitHub连接：LeetCode-Go-Python-Java-C Go-Python-Java-C-LeetCode高分解法-第一周合集 Go-Python-Java-C-LeetCode高分解法-第二周合集 Go-Python-Java-C-LeetCode高分解法-第三周合集 …

阅读更多...

The 2023 ICPC Asia Regionals Online Contest (1) E. Magical Pair（数论欧拉函数）

The 2023 ICPC Asia Regionals Online Contest (1) E. Magical Pair（数论欧拉函数）

题目 T(T<10)组样例，每次给出一个n(2<n<1e18)， 询问多少对，满足答案对998244353取模，保证n-1不是998244353倍数思路来源 OEIS、SSerxhs、官方题解 2023 ICPC 网络赛第一场简要题解 - 知乎题解官方题解还没有…

阅读更多...

【自己犯过的蠢代码】

【自己犯过的蠢代码】

案例一 “” “用错 #include <stdio.h>int main() {int a 5;int b 10;if (a b) {printf("a等于b\n");} else {printf("a不等于b\n");}return 0; }#include <stdio.h>int main() {int a 5;int b 10;if (a b) {printf("a等于b\n&q…

阅读更多...

基于人脸5个关键点的人脸对齐（人脸纠正）

基于人脸5个关键点的人脸对齐（人脸纠正）

摘要：人脸检测模型输出人脸目标框坐标和5个人脸关键点，在进行人脸比对前，需要对检测得到的人脸框进行对齐（纠正），本文将通过5个人脸关键点信息对人脸就行对齐（纠正）。一、输入图像…

阅读更多...

文献阅读：LIMA: Less Is More for Alignment

文献阅读：LIMA: Less Is More for Alignment

文献阅读：LIMA: Less Is More for Alignment 1. 内容简介2. 实验设计 1. 整体实验设计2. 数据准备3. 模型准备4. metrics设计 3. 实验结果 1. 基础实验2. 消解实验3. 多轮对话 4. 结论 & 思考文献链接：https://arxiv.org/abs/2305.11206 1. 内容简…

阅读更多...

数据结构的奇妙世界：实用算法与实际应用

数据结构的奇妙世界：实用算法与实际应用

文章目录数据结构和算法的基本概念数据结构数组链表栈队列树图算法常见的数据结构和算法排序算法快速排序示例数据结构的应用数据库管理系统图像处理网络路由数据结构和算法的性能分析时间复杂度空间复杂度如何更好地编写代码避免常见错误结论 🎉欢迎来到数据…

阅读更多...

最新文章