算法学习(三)——蒙特卡洛树搜索

news/2024/5/19 0:11:18 标签: python, 机器学习, 人工智能, 算法, 强化学习

四个阶段:

选择,展开,模拟,反传

关键公式:

信任度上限树(Upper Confidence bound applied to Trees(UCT))

参考文章:

https://zhuanlan.zhihu.com/p/25345778

参考代码:

https://github.com/junxiaosong/AlphaZero_Gomoku

里边有用纯mcts的AI,实现的很巧妙。

 

参考论文:

基于蒙特卡洛树搜索的计算机围棋博弈研究_于永波

 

自己的理解:

每次在选择阶段,选择一个叶节点,进行评估并展开。所以树结构是逐渐展开的,被展开的节点在展开前被评估过一次,展开的是向最有可能赢的方向逐渐加深的。


http://www.niftyadmin.cn/n/957438.html

相关文章

对比一下找不同

<template><div><table><tr><td>商品编号</td><td><input type"text" v-model.number"id"></td></tr><tr><td>商品名称</td><td><input type"text" v-…

算法学习(四)——alphago模型

模型推荐看原文&#xff1a; https://xueshu.baidu.com/usercenter/paper/show?paperida7600bdc74f5a07ed65256035cd15c6b&sitexueshu_se 自己的理解&#xff1a; MCTS解决的是算力分配的问题&#xff0c;alphago主要解决了五个问题&#xff1a; 一是把深度学习和蒙特…

什么叫回调函数?

什么叫回调函数&#xff1f;

算法学习(五)——alphago Zero模型

论文原文&#xff1a; https://xueshu.baidu.com/usercenter/paper/show?paperid2c541a0965ba18d2f7f835ecdbe4f37d&sitexueshu_se github上的复现&#xff0c;膜拜大神&#xff1a; https://github.com/junxiaosong/AlphaZero_Gomoku alphago Zero模型的理解&#xf…

numpy学习笔记1—ravel() 和 flatten()

numpy的ravel() 和 flatten()函数 简介 首先声明两者所要实现的功能是一致的&#xff08;将多维数组降位一维&#xff09;。这点从两个单词的意也可以看出来&#xff0c;ravel(散开&#xff0c;解开)&#xff0c;flatten&#xff08;变平&#xff09;。两者的区别在于返回拷贝…

promise的创建

const promise new Promise(function(resolve, reject){setTimeout(function(){try {let c 6 / 2 ;resolve(c);console.log(c)}catch(ex) {reject(ex);}}, 1000) });得出答案是3 但是把console.log放在最后一行会报错&#xff0c;说c没被定义 const promise new Promise(f…

Python3之max key参数学习记录

今天用Python写脚本&#xff0c;想要实现这样的功能&#xff1a;对于给定的字典&#xff0c;返回其中Value最大值对应的Key。 搜索后找到了解决方法&#xff0c;同时也学到了max key参数的作用。 例1&#xff0c; testlist [9.2, 10, -20.3, -7.0, 9.999, 20.111] print(ma…

promise的运行

const promise new Promise(function(resolve, reject){setTimeout(function(){try {let c 6 / 2 ;resolve(c);console.log(c)}catch(ex) {reject(ex);}}, 1000) }) promise.then(function(value) {console.log(value) },function(err){console.error(err.message) })运行结果…