深度学习用于奖励设计，提高 ATARI 游戏中的蒙特卡罗树搜索

IJCAIApr, 2016

深度学习用于奖励设计，提高 ATARI 游戏中的蒙特卡罗树搜索

Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games

Xiaoxiao Guo, Satinder Singh, Richard Lewis, Honglak Lee

TL;DR本文提出了一种结合 PGRD 和深度学习的方法，利用卷积神经网络自动学习特征来改进 UCT 算法在 ATARI 游戏中的表现。

Abstract

monte carlo tree search (MCTS) methods have proven powerful in planning for sequential decision-making problems such as Go and video games, but their performance can be poor when the planning depth and sampling trajectories are limited or when the rewards are sparse. We present an adap

monte carlo tree search pgrd reward-bonus function convolutional neural network deep learning

发现论文，激发创造

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

生成对抗树搜索的惊人负面结果

本文研究了深度生成模型在强化学习环境中的设计，并提出了一种基于生成对抗树搜索和蒙特卡罗树搜索的算法 GATS。GATS 在学习环境模型后，在树搜索中实现了 MCTS，并使用深度 Q 网络学习 Q 函数。然而，实验结果表明，GATS 并未能超越 DQN，作者分析了深度限制 MCTS 失败的原因。

Jun, 2018

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

超越蒙特卡罗树搜索：使用深度备选神经网络和长期评估玩围棋

本文提出了一种使用深度替代神经网络（DANN）和长期评估模块的计算机围棋系统，其中 DANN 的效果优于传统的深度卷积神经网络（DCNN），并结合长期评估模块的选择比大多数现有的基于蒙特卡罗树搜索的开源引擎更好。

Jun, 2017

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

风险感知和多目标强化学习的蒙特卡罗树搜索算法

本文提出了两种基于蒙特卡罗树搜索的算法，能够针对非线性效用函数计算风险意识和多目标环境下的回报策略，并考虑累计回报，同时，这两个算法在多目标强化学习中，预期回报的表现超越了现有的最优算法。

Nov, 2022

数据高效的疟疾控制强化学习

本文介绍了一种名为 Variance-Bonus Monte Carlo Tree Search (VB-MCTS) 的实用、数据效率高的策略学习方法，它是一种基于模型的强化学习方法，应用高斯过程回归估计转变，提出了一种方差奖励来衡量对世界的不确定性，进一步优化了计划，得到了更有效的探究，综合实验结果表明，在困难的疟疾控制任务上，VB-MCTS 优于现有技术。

May, 2021