算法学习（十）——强化学习中的奖励设置（不完整）

news/2024/5/18 23:51:26 标签: python, 强化学习, 人工智能, 机器学习

强化学习中奖励函数的设置非常复杂，这里只是总结一下我的理解。

1.收益信号只能用来传达什么是你想要实现的目标，而不是如何实现現这个目标。所以不应该把奖励设置的过于细致。

2.使用惩罚项可能导致智能体一动不动，因为不动就不会有惩罚。所以有惩罚项的训练过程可能存在搜索不足的问题。

3.渐进型的奖励容易实现，但是很容易违背第一条原则，而事件型的奖励符合第一条原则，但是效果一般很差，比如要到达某一个点，但是只在目标点给奖励，这样训练的智能体寻路效果一般都不好。

4.据说如果batchsize如果为2^12，那么奖励函数就变得不重要了？？

参考文章：

https://zhuanlan.zhihu.com/p/170523750

http://www.niftyadmin.cn/n/957412.html

强化学习论文研读（一）——Where Do Rewards Come From?

在强化学习领域，传统的要素为环境，观察表述，奖励，动作，这里的奖励完全由环境给出，论文提出一种内部驱动的奖励系统，如下图所示： 本文将奖励分为内部驱动的奖励和外部驱动的奖励&…

这是什么bug

* vuex in ./node_modules/cache-loader/dist/cjs.js??ref--12-0!./node_modules/babel-loader/lib!./node_modules/cache-loader/dist/cjs.js??ref--0-0!./node_modules/vue-loader-v16/dist??ref--0-1!./src/components/HeaderCart.vue?vue&typescript&langjs…

强化学习论文研读（二）——Playing Atari with Deep Reinforcement Learning

DQN系列算法的开山之作，这里的dqn通常称为NIPS-DQN，后来还有nature-DQN，更加好用。论文的一些理解 Q-Learning的伪代码： NIPS-DQN的伪代码： 有以下几个关键点： 一是图像的处理： 将图像压缩成…

头部文件有一个bug

1、HeaderSearch.vue <template><div class"headerSearch"><input type"search" v-model.trim"keyword"><button click"search">搜索</button></div> </template><script> export d…

torch.gather()通俗理解

torch.gather(input, dim, index, outNone) → Tensor input (Tensor) – 源张量 dim (int) – 索引的轴 index (LongTensor) – 聚合元素的下标 out (Tensor, optional) – 目标张量 >>> t torch.Tensor([[1,2],[3,4]]) 1 2 3 4 >>> torch.gather(t,1,…

setup放在哪里试可不可以运行

<template><div>{{ count }} {{ object.foo }}</div> </template><script>import { ref, reactive } from vueexport default {setup() {const count ref(0)const object reactive({ foo: bar })// 暴露到template中return {count,object}}} &…

t-SNE实践——sklearn教程

声明： 参考sklearn官方文档 How to Use t-SNE Effectively.（翻译：如何高效地使用t-SNE） t-SNE t-SNE是一种集降维与可视化于一体的技术，它是基于SNE可视化的改进，解决了SNE在可视化后样本分布拥挤、边界…

疑难点。。

setup ref等 key watch

算法学习（十）——强化学习中的奖励设置（不完整）

相关文章