算法学习(六)——alpha Zero模型

news/2024/6/19 4:53:27 标签: python, 算法, 机器学习, 深度学习, 人工智能

论文:

https://xueshu.baidu.com/usercenter/paper/show?paperid=dba68ff4f67c98a046754cf804cf1d7e&site=xueshu_se

代码:

https://github.com/junxiaosong/AlphaZero_Gomoku

理解:

0.应用领域:完美信息零和博弈,但是可以不对称规则,位置相关规则,表述更加丰富

1.将应用在围棋领域的alphago zero拓展到了象棋和将棋领域,围棋表述和输出相对简单,因为表述是布尔的,输出只有位置信息,而象棋要复杂一些,使用了如下方法:

2.训练的时候不再使用55%的胜率替代原有网络,而是持续迭代更新一个网络,最后输出最后一个网络。

3.针对不同的游戏损失函数,网络结构是一致的,不同在于输入输出的结构。

上面为可能的结构。

输入分为两种,分别为binary planes 和real-valued。

论文中描述: Counts are represented by a single real-valued input(计数由单个实值输入表示),other input features are represented by a one-hot encoding using the specified number of binary input planes(其他输入特征由使用指定数量的二进制输入平面的单热编码表示)

所以网络的结构应该也有变化,添加了实值输入的头。

4.输出

这些棋类的动作相对简单,只需要选择一个棋子,然后给一个合法的空间坐标就行,所以都是根据对应起来的规则,使用n*m*l的方式作为输出,n,m为棋盘的长宽,l用不同的层表示不同的棋子和对应的动作位置。

 

 


http://www.niftyadmin.cn/n/957428.html

相关文章

算法学习(七)——一些基本概念:model base和model free,On-Policy 和 Off-Policy,On-Line 学习和 Off-Line 学习

model base和model free: model base指状态之间的转移关系确定,从而可以将决策问题转化成一个马尔科夫过程,从而用动态规划的方式得到最优解,使用条件比较苛刻。状态转移概率矩阵如下图: model free使用更加广泛&…

这段代码要在哪个空间里运行?js,vue,html都没试好

import { ref } from vueconst counter ref(0)console.log(counter) // { value: 0 } console.log(counter.value) // 0counter.value console.log(counter.value) // 1

为什么这个什么也不显示?

<div id"app"><post-item :post-title"title"></post-item> </div><script src"https://unpkg.com/vuenext"></script> <script> const app Vue.createApp({data() {return {title: Java无难事}} })…

算法学习(八)——SARSA和Q-Learning

SARSA是一种on-policy算法&#xff0c;Q-Learning是一种off-policy算法。 关于on-policy和off-policy的定义&#xff0c;网上有很多不同的讨论&#xff0c;我认为&#xff0c; on-policy和off-policy的差异 在于 训练目标策略 所用到的数据 &#xff08;有时候也表现为数据 &…

reactive()的使用,这短代码为什么不好使

<div id"app">count: {{ count }} </div><script src"https://unpkg.com/vuenext"></script> <script> const state Vue.reactive({count: 0 });const vm app.mount(#app) </script>为什么不出来count: 0呢&#xf…

127.0.0.1拒绝了我们的连接请求

问题描述 浏览器打不开127.0.0.1&#xff0c;显示拒绝连接。试着ping了一下。 需要指明一点&#xff0c;::1是ipv6的地址&#xff0c;但正常localhost应该指向127.0.0.1。 使用Windows自带的网络诊断工具&#xff0c;出现了“127.0.0.1未设置为接受端口“万维网服务(HTTP)”上…

详解PyTorch项目使用TensorboardX进行训练可视化

目录 什么是TensorboardX配置TensorboardX 环境要求安装 使用 pip 安装从源码安装使用TensorboardX 使用各种 add 方法记录数据 数字 (scalar)图片 (image)直方图 (histogram)运行图 (graph)嵌入向量 (embedding)其他一些tips什么是TensorboardX Tensorboard 是 TensorFlow 的…

Python之利用abc模块实现抽象类

import abc #利用abc模块实现抽象类class All_file(metaclassabc.ABCMeta):all_type fileabc.abstractmethod #定义抽象方法&#xff0c;无须实现功能def read(self):# 子类必须定义写功能passabc.abstractmethod #定义抽象方法&#xff0c;无须实现功能def write(self…