【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法

news/2024/5/18 23:51:22 标签: python, 算法, 强化学习

写在最前:参加DataWhale十一月组队学习记录

【教程地址】
https://github.com/datawhalechina/joyrl-book
https://datawhalechina.github.io/easy-rl/
https://linklearner.com/learn/detail/91


强化学习

强化学习是一种重要的机器学习方法,它使得智能体能够在环境中做出决策以达成特定目标。在这篇博客中,我们将深入探讨强化学习的三个关键领域:基础知识、马尔可夫决策过程和表格型方法。

第1章 强化学习基础

在本章中,我们将介绍强化学习的基本概念,包括智能体(agent)、环境(environment)、奖励(reward)和策略(policy)。我们将探讨这些概念如何共同作用,以及它们在学习过程中的重要性。

智能体和环境

奖励系统

策略的概念

第 2 章 马尔可夫决策过程

马尔可夫决策过程(MDP)是强化学习中的一个核心概念。我们将讨论状态(state)、动作(action)、转移概率(transition probability)等关键要素,以及如何通过这些要素来建模决策过程。

MDP的定义

状态和动作

转移概率和奖励函数

第 3 章 表格型方法

在许多强化学习问题中,表格型方法是解决问题的第一步。我们将探索如何使用表格来存储和更新有关状态和动作的信息,以及这些方法如何在实际问题中应用。

表格型学习的基础

动态规划

蒙特卡洛方法和时间差分学习


http://www.niftyadmin.cn/n/5184243.html

相关文章

免费开源客服机器人tiledesk 实现一个查询天气机器人

第一步,槽位收集: 第二步:天气api接口调用: 效果展示:

【SA8295P 源码分析 (三)】125 - MAX96712 解串器 start_stream、stop_stream 寄存器配置 过程详细解析

【SA8295P 源码分析】125 - MAX96712 解串器 start_stream、stop_stream 寄存器配置 过程详细解析 一、sensor_detect_device():MAX96712 检测解串器芯片是否存在,获取chip_id、device_revision二、sensor_detect_device_channels() :MAX96712 解串器 寄存器初始化 及 detec…

webpack编译运行了两次

问题 我的代码在编译之后运行了两次,第一次的运行有VMxxx的字段。 问题出处 模板文件中原本就注入了javascript文件,而HtmlWebpackPlugin会自动注入JavaScript文件。 解决方法 1、将inject选项设置为false plugins: [new HtmlWebpcakPlugin({templa…

保姆级教程之SABO-VMD-CNN-SVM的分类诊断,特征可视化

今天出一期基于SABO-VMD-CNN-SVM的分类诊断。 依旧是采用经典的西储大学轴承数据。基本流程如下: 首先是以最小包络熵为适应度函数,采用SABO优化VMD的两个参数。其次对每种状态的数据进行特征向量的求取,并为每组数据打上标签。然后将数据送入…

网络安全准入技术之MAC VLAN

网络准入控制作为主要保障企业网络基础设施的安全的措施,特别是对于中大型企业来说,终端类型多样数量激增、终端管理任务重难度大、成本高。 在这样的一个大背景下,拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…

【整理】HTTP相关版本对比

1. HTTP/1 超文本传输协议,处于计算机网络中的应用层,HTTP是建立在TCP协议之上,所以HTTP协议的瓶颈及其优化技巧都是基于TCP协议本身的特性。 缺陷: 连接无法复用 ---------- 每次请求经历三次握手和慢启动HOLB(队头…

JVM查看内存新生代老年代回收情况,排查oom

jstat 命令 jstat - [-t] [-h] [ []] option:我们经常使用的选项有gc、gcutil vmid:java进程id interval:间隔时间,单位为毫秒 count:打印次数 每秒打印一次 jstat -gc 9162 1000S0C:年轻代第一个survivor的容量…

【吞噬星空】罗峰成功抵达虬龙星,宇宙超级富二代登场,不容错过

Hello,小伙伴们,我是小郑继续为大家深度解析国漫资讯。 深度爆料《吞噬星空》93集,在虬龙星港口,当罗峰的飞船一进入,牵引信号就立刻响起,像一道无形的指引线,将他飞船牵引至指定的停靠区域。罗峰踏出飞船…