算法学习(十)——强化学习中的奖励设置(不完整)

news/2024/5/18 23:51:26 标签: python, 强化学习, 人工智能, 机器学习

强化学习中奖励函数的设置非常复杂,这里只是总结一下我的理解。

1.收益信号只能用来传达什么是你想要实现的目标,而不是如何实现現这个目标。所以不应该把奖励设置的过于细致。

2.使用惩罚项可能导致智能体一动不动,因为不动就不会有惩罚。所以有惩罚项的训练过程可能存在搜索不足的问题。

3.渐进型的奖励容易实现,但是很容易违背第一条原则,而事件型的奖励符合第一条原则,但是效果一般很差,比如要到达某一个点,但是只在目标点给奖励,这样训练的智能体寻路效果一般都不好。

4.据说如果batchsize如果为2^12,那么奖励函数就变得不重要了??

 

 

 

 

 

参考文章:

https://zhuanlan.zhihu.com/p/170523750

 


http://www.niftyadmin.cn/n/957412.html

相关文章

强化学习论文研读(一)——Where Do Rewards Come From?

在强化学习领域,传统的要素为环境,观察表述,奖励,动作,这里的奖励完全由环境给出,论文提出一种内部驱动的奖励系统,如下图所示: 本文将奖励分为内部驱动的奖励和外部驱动的奖励&…

这是什么bug

* vuex in ./node_modules/cache-loader/dist/cjs.js??ref--12-0!./node_modules/babel-loader/lib!./node_modules/cache-loader/dist/cjs.js??ref--0-0!./node_modules/vue-loader-v16/dist??ref--0-1!./src/components/HeaderCart.vue?vue&typescript&langjs…

强化学习论文研读(二)——Playing Atari with Deep Reinforcement Learning

DQN系列算法的开山之作,这里的dqn通常称为NIPS-DQN,后来还有nature-DQN,更加好用。 论文的一些理解 Q-Learning的伪代码: NIPS-DQN的伪代码: 有以下几个关键点: 一是图像的处理: 将图像压缩成…

头部文件有一个bug

1、HeaderSearch.vue <template><div class"headerSearch"><input type"search" v-model.trim"keyword"><button click"search">搜索</button></div> </template><script> export d…

torch.gather()通俗理解

torch.gather(input, dim, index, outNone) → Tensor input (Tensor) – 源张量 dim (int) – 索引的轴 index (LongTensor) – 聚合元素的下标 out (Tensor, optional) – 目标张量 >>> t torch.Tensor([[1,2],[3,4]]) 1 2 3 4 >>> torch.gather(t,1,…

setup放在哪里试可不可以运行

<template><div>{{ count }} {{ object.foo }}</div> </template><script>import { ref, reactive } from vueexport default {setup() {const count ref(0)const object reactive({ foo: bar })// 暴露到template中return {count,object}}} &…

t-SNE实践——sklearn教程

声明&#xff1a; 参考sklearn官方文档 How to Use t-SNE Effectively.&#xff08;翻译&#xff1a;如何高效地使用t-SNE&#xff09; t-SNE t-SNE是一种集降维与可视化于一体的技术&#xff0c;它是基于SNE可视化的改进&#xff0c;解决了SNE在可视化后样本分布拥挤、边界…

疑难点。。

setup ref等 key watch