在 miniXCOM 中探索使用 TD 学习的自适应 MCTS

Oct, 2022

在 miniXCOM 中探索使用 TD 学习的自适应 MCTS

Exploring Adaptive MCTS with TD Learning in miniXCOM

Kimiya Saadat, Richard Zhao

TL;DR本文介绍了一种名为 MCTS-TD 的自适应 MCTS 算法，该算法使用了深度强化学习技术，从而无需预训练模型即可实现在线调整，通过在 miniXCOM 游戏中进行测试，进一步证明了该算法的有效性。

Abstract

In recent years, monte carlo tree search (MCTS) has achieved widespread adoption within the game community. Its use in conjunction with deep reinforcement learning has produced success stories in many applications. While these approaches have been implemented in various games, from sim

monte carlo tree search deep reinforcement learning mcts-td adapting minixcom

发现论文，激发创造

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021

使用 MCTSnets 学习搜索

该论文提出了一种名为 MCTSnet 的体系架构，其将基于模拟的搜索嵌入神经网络中，并通过向量嵌入扩展，评估和备份。该网络的参数进行端到端的训练优化，应用于小范围的搜索中，显著优于 MCTS 基线的性能。

Feb, 2018

通过学习队友模型实现的分散 MCTS

本文提出一种可训练的在线分散式规划算法，基于分散蒙特卡洛树搜索，结合先前的剧集运行学习的队友模型，利用深度学习和卷积神经网络生成精确的策略逼近器，提高了策划性能。此算法支持去中心化在线规划的多代理系统.

Mar, 2020

超越蒙特卡罗树搜索：使用深度备选神经网络和长期评估玩围棋

本文提出了一种使用深度替代神经网络（DANN）和长期评估模块的计算机围棋系统，其中 DANN 的效果优于传统的深度卷积神经网络（DCNN），并结合长期评估模块的选择比大多数现有的基于蒙特卡罗树搜索的开源引擎更好。

Jun, 2017

学习停止：动态模拟蒙特卡罗树搜索

本文提出一种名为 Dynamic Simulation MCTS 的算法，它通过预测当前状态的不确定性来决定是否停止搜索，实现了在不降低胜率的情况下，将 NoGo 智能体训练速度提高了 2.5 倍，并在同样的平均模拟次数下，取得了 61% 的胜率。

Dec, 2020

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

深度学习用于奖励设计，提高 ATARI 游戏中的蒙特卡罗树搜索

本文提出了一种结合 PGRD 和深度学习的方法，利用卷积神经网络自动学习特征来改进 UCT 算法在 ATARI 游戏中的表现。

Apr, 2016

达芬奇密码游戏策略模拟的蒙特卡罗树搜索算法的开发与应用

通过比较分析基于 CPU 和 GPU 的 MCTS 算法在分支分歧情况下的性能，我们发现 CPU 实现呈线性改进趋势，而 GPU 实现呈现出非线性的增强模式和明显的性能下降。这些发现对于优化并行计算架构上的游戏策略算法具有重要的考虑价值。

Mar, 2024