算法学习（三）——蒙特卡洛树搜索

news/2024/5/19 0:11:18 标签: python, 机器学习, 人工智能, 算法, 强化学习

四个阶段：

选择，展开，模拟，反传

关键公式：

信任度上限树(Upper Confidence bound applied to Trees(UCT))

参考文章：

https://zhuanlan.zhihu.com/p/25345778

参考代码：

https://github.com/junxiaosong/AlphaZero_Gomoku

里边有用纯mcts的AI，实现的很巧妙。

参考论文：

基于蒙特卡洛树搜索的计算机围棋博弈研究_于永波

自己的理解：

每次在选择阶段，选择一个叶节点，进行评估并展开。所以树结构是逐渐展开的，被展开的节点在展开前被评估过一次，展开的是向最有可能赢的方向逐渐加深的。

http://www.niftyadmin.cn/n/957438.html

对比一下找不同

<template><div><table><tr><td>商品编号</td><td><input type"text" v-model.number"id"></td></tr><tr><td>商品名称</td><td><input type"text" v-…

算法学习（四）——alphago模型

模型推荐看原文： https://xueshu.baidu.com/usercenter/paper/show?paperida7600bdc74f5a07ed65256035cd15c6b&sitexueshu_se 自己的理解： MCTS解决的是算力分配的问题，alphago主要解决了五个问题： 一是把深度学习和蒙特…

算法学习（五）——alphago Zero模型

论文原文： https://xueshu.baidu.com/usercenter/paper/show?paperid2c541a0965ba18d2f7f835ecdbe4f37d&sitexueshu_se github上的复现，膜拜大神： https://github.com/junxiaosong/AlphaZero_Gomoku alphago Zero模型的理解&#xf…

numpy学习笔记1—ravel() 和 flatten()

numpy的ravel() 和 flatten()函数简介首先声明两者所要实现的功能是一致的（将多维数组降位一维）。这点从两个单词的意也可以看出来，ravel(散开，解开)，flatten（变平）。两者的区别在于返回拷贝…

const promise new Promise(function(resolve, reject){setTimeout(function(){try {let c 6 / 2 ;resolve(c);console.log(c)}catch(ex) {reject(ex);}}, 1000) });得出答案是3 但是把console.log放在最后一行会报错，说c没被定义 const promise new Promise(f…

Python3之max key参数学习记录

今天用Python写脚本，想要实现这样的功能：对于给定的字典，返回其中Value最大值对应的Key。搜索后找到了解决方法，同时也学到了max key参数的作用。例1， testlist [9.2, 10, -20.3, -7.0, 9.999, 20.111] print(ma…

promise的运行

const promise new Promise(function(resolve, reject){setTimeout(function(){try {let c 6 / 2 ;resolve(c);console.log(c)}catch(ex) {reject(ex);}}, 1000) }) promise.then(function(value) {console.log(value) },function(err){console.error(err.message) })运行结果…