强化学习感想

news/2024/5/19 1:12:17 标签: 强化学习

为什么用强化学习

智能体的选择动作是根据以往的训练效果(奖惩函数),并结合当前的状态来决定;这便是强化学习的目的,挖掘状态和动作的隐蔽相关性。

如果状态和动作的相关性很明显的话,那么就不需要用强化学习来做了。

例如:在微电网的削峰填谷的场景下,任意时刻只要知道微电网当前缺电(状态),那么电动汽车就放电(动作);微电网当前电量剩余很多(状态),就给电动汽车充电(动作)。不考虑约束条件以及奖惩函数(结果)的话,这就属于相关性很明显。

但是需要考虑的是: 电动汽车在离开时,电池的电量需要达到车主的预期值。那么这时候就不能 根据上面这套简单的逻辑去执行动作了。

奖惩函数与约束条件怎么区分?

那为什么不能把 “电动汽车在离开时,电池的电量需要达到车主的预期值” 只作为约束条件呢?

  1. 因为约束条件指的是任意时间都需要满足的条件,而奖惩函数一般是经过一段时间得出才有意义,不一定每一时刻最优,追求的是整个过程结束之后全局最优。
  2. 约束条件比奖惩函数更严格

http://www.niftyadmin.cn/n/1647719.html

相关文章

IO流 读写文件

读写文件 如前所述,一个流被定义为一个数据序列。输入流用于从源读取数据,输出流用于向目标写数据。 下图是一个描述输入流和输出流的类层次图。 下面将要讨论的两个重要的流是 FileInputStream 和 FileOutputStream: FileInputStream 该流用…

一个 TDD 示例

一个 TDD 示例 作者:Grey 原文地址:一个 TDD 示例 参考文档 码农翻身-从零开始造Spring 中的《介绍TDD开发方式, 重构的方法》 TDD(Test-Driven Development,测试驱动开发)的流程是 写一个测试用例 -…

AD 域登录验证

AD 域登录验证 作者:Grey 原文地址: 博客园:AD 域登录验证 CSDN:AD 域登录验证 需求 系统在登录的时候,需要根据用户名和密码验证连接域服务器进行验证此用户是否为域用户。 条件 域服务器地址:x.x.x.…

Kettle 中表输入组件精度丢失的问题

Kettle 中表输入组件精度丢失的问题 作者:Grey 原文地址:Kettle 中表输入组件精度丢失的问题 kettle 的表输入组件,在默认状态下,查询的浮点数会默认帮你做一些操作(比如保留一位小数,或者四舍五入&…

Marketing Cloud demo环境和API使用方法说明

version 1.0 作者:Wang Jerry 更多问题请联系我 demo 系统url:https:/jerry.hybris.com/sap/bc/ui5_ui5/ui2/ushell/shells/abap/FioriLaunchpad.html 用户名/密码:Jerry1/Diablo1 登录成功之后,可以在菜单"快速启动"-&…

APIJSON简单使用

APIJSON简单使用 作者: Grey 原文地址:APIJSON简单使用 介绍 APIJSON 是一种专为 API 而生的 JSON 网络传输协议 以及 基于这套协议实现的 ORM 库。为简单的增删改查、复杂的查询、简单的事务操作 提供了完全自动化的万能 API。能大幅降低开发和沟通成…

根据先序遍历和中序遍历生成后序遍历

根据先序遍历和中序遍历生成后序遍历 作者:Grey 原文地址: 博客园:根据先序遍历和中序遍历生成后序遍历 CSDN:根据先序遍历和中序遍历生成后序遍历 问题描述 牛客:通过先序和中序数组生成后序数组 思路 假设有一棵二叉树 …

深入理解java虚拟机-读书笔记

内存动态分配与内存回收技术已经相当成熟,看起来进入了自动化的时代,为什么还要去了解垃圾收集和内存分配? 当需要排查各种内存溢出、内存泄漏问题时当垃圾收集成为系统达到更高并发量的瓶颈时 我们就必须对内存动态分配与垃圾收集技术实施必…