四个阶段:
选择,展开,模拟,反传
关键公式:
信任度上限树(Upper Confidence bound applied to Trees(UCT))
参考文章:
https://zhuanlan.zhihu.com/p/25345778
参考代码:
https://github.com/junxiaosong/AlphaZero_Gomoku
里边有用纯mcts的AI,实现的很巧妙。
参考论文:
基于蒙特卡洛树搜索的计算机围棋博弈研究_于永波
自己的理解:
每次在选择阶段,选择一个叶节点,进行评估并展开。所以树结构是逐渐展开的,被展开的节点在展开前被评估过一次,展开的是向最有可能赢的方向逐渐加深的。