强化学习(RL)初印象

news/2024/5/19 0:11:08 标签: 强化学习

学习百度AI Studio的笔记,供自己复习和记录学习过程中的思路使用,如想了解详情请移步百度AI Studio

强化学习(RL)初印象

前言 什么是智能/人工智能

在这里插入图片描述
在这里插入图片描述

Part1 什么是强化学习

在这里插入图片描述

强化学习(英语:Reinforcement learning,简称RL)
是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

核心思想:
  智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。

注意:
  从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
此图可以看到强化学习的reward既有延时,即只有执行完所有步骤后才会知道有没有reward。下图也可以帮助理解这个“延时”!!!
在这里插入图片描述

Part2 强化学习的分类

在这里插入图片描述

Part3 强化学习能做什么

在这里插入图片描述

  • 游戏(马里奥、Atari、Alpha Go、星际争霸等)

  • 机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
    在这里插入图片描述

  • 用户交互(推荐、广告、NLP等)
    在这里插入图片描述

  • 交通(拥堵管理等)
    在这里插入图片描述

  • 资源调度(物流、带宽、功率等)

  • 金融(投资组合、股票买卖等)
    在这里插入图片描述

  • 其他

Part4 强化学习与监督学习的区别

  • 强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集
    在这里插入图片描述

  • 监督学习寻找输入到输出之间的映射,比如分类和回归问题。

  • 非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。

  • 强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
    在这里插入图片描述

  • 监督学习处理认知问题强化学习处理决策问题
    在这里插入图片描述

Part5 强化学习如何解决问题

  • 强化学习通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。
    在这里插入图片描述

  • 强化学习有两种学习方案 :

    • 基于价值(value-based)
    • 基于策略(policy-based)
      在这里插入图片描述

Part6 强化学习的算法和环境

  • 经典算法:

    • Q-learning
    • Sarsa
    • DQN
    • Policy Gradient
    • A3C
    • DDPG
    • PPO
  • 环境分类:

    • 离散控制场景(输出动作可数)
    • 连续控制场景(输出动作值不可数)
  • 强化学习经典环境库GYM将环境交互接口规范化为:

    • 重置环境reset()
    • 交互step()
    • 渲染render()
      在这里插入图片描述
      在这里插入图片描述
  • 强化学习框架库PARL强化学习框架抽象为ModelAlgorithmAgent三层,使得强化学习算法的实现和调试更方便和灵活。
    在这里插入图片描述

Part7 本篇总述

在这里插入图片描述


http://www.niftyadmin.cn/n/756028.html

相关文章

Sql中Alter 和 Update的区别

alt:表的结构 update:表中的值 转载于:https://www.cnblogs.com/hswangnux/p/7087040.html

Jetson Xavier NX 烧写系统镜像

该博客为《玩转Jetson Xavier NX》系列博客的第一篇,该系列博客主要对使用Jetson Xavier NX 开发者套件进行一个纪记录。 Jetson Xavier NX 烧写系统镜像Jetson Xavier NXJetson Xavier NX 简介Jetson Xavier NX 规格参数NVIDIA Jetson 硬件参数对比Jetson Xavier N…

struts2学习(1)struts2 helloWorld

一、struts2简介: 二、helloWorld: 1)工程结构: HelloWorldAction.java: package com.cy.action;import com.opensymphony.xwork2.Action;public class HelloWorldAction implements Action{public String execute() throws Excep…

ubuntu16.04安装百度网盘

该博客为《Ubuntu 相关》系列博客的第一篇,该系列博客主要对Ubuntu安装各种软件或者库进行一个记录,方便重装系统后快速恢复工作。 ubuntu16.04安装百度网盘一、安装deepin-wine环境:二、安装deepin.com容器:三、安装deb一、安装d…

显示当前日期时间

1 private String getCurrentDate() {2 final Calendar c Calendar.getInstance();3 c.setTimeZone(TimeZone.getTimeZone("GMT8:00"));4 String mYear String.valueOf(c.get(Calendar.YEAR)); // 获取当前年份5 String mMonth …

Ubuntu16.04 安装 Matlab2016b

该博客为《Ubuntu 相关》系列博客的第二篇,该系列博客主要对Ubuntu安装各种软件或者库进行一个记录,方便重装系统后快速恢复工作。 这是进项目组以来接受的第一个任务,以此记录实现过程。 Ubuntu16.04 安装 Matlab2016b一、下载镜像二、挂载映…

第三章 计算机网络传输

同轴电缆:绝缘层,屏蔽层,塑料外套。分为基带50, 宽带75同轴电缆。适用点到点的连接。 光钎:多模采用发光二极管,单模采用注入型激光二极管。接收端的检波器是一个光电二级管,目前用的是PIN检波器…

Matlab代码转C++ —— mwArray

首先,说明mwArray数据类型不同于mxArray,所以许多关于mxArray的用法,对mwArray不一定适用,具体区别见博文: http://www.cnblogs.com/kmliang/archive/2012/08/29/2662943.html Matlab代码转C —— mwArray一.矩阵赋值…