通过近端策略优化和蒙特卡罗树搜索实现机动决策

Aug, 2023

通过近端策略优化和蒙特卡罗树搜索实现机动决策

Maneuver Decision-Making Through Proximal Policy Optimization And Monte Carlo Tree Search

Zhang Hong-Peng

TL;DR基于邻近策略优化和蒙特卡洛树搜索的方法，用于解决机动决策问题，通过使用邻近策略优化训练智能体，并使用价值网络作为训练目标，以及基于价值网络和每个节点的访问次数，使用蒙特卡洛树搜索找到比随机动作更有预期回报的动作，提高训练性能，实验验证了所提方法的有效性和可行性。

Abstract

maneuver decision-making can be regarded as a markov decision process and can be address by reinforcement learning. However, original

maneuver decision-making markov decision process reinforcement learning proximal policy optimization monte carlo tree search

发现论文，激发创造

基于课程学习和稀疏奖励的自主空战机动决策

本文在研究基于强化学习的自主空战机动决策方法时，考虑到稀疏奖励可能会导致训练时间长且效果不佳的问题，提出了基于课程学习的方法包括三个不同的课程：角度课程、距离课程和混合课程，实验结果表明，角度课程可以提高训练速度和性能，距离课程可以提高训练速度和稳定性，混合课程对训练有负面影响。最终通过模拟结果表明，在训练后，智能体能够处理来自不同方向的目标，并且决策结果与导弹特性一致。

Feb, 2023

在非稳态环境中的决策制定与策略增强搜索

在非固定环境下，通过结合过时策略的动作价值估计和最新环境模型的在线搜索，我们引入了一种名为 PA-MCTS 的增强蒙特卡洛树搜索方法，该方法解决了时限有限情况下的顺序决策问题，并在与 AlphaZero 和 Deep Q Learning 的对比实验中显示优越性。

Jan, 2024

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数

本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。

Jul, 2023

带策略增强蒙特卡罗树搜索的非静态环境决策

通过结合强化学习和计划，提出了一种称为 Policy Augmented MCTS（PA-MCTS）的新型混合决策方法，将策略的动作价值估计结合到 MCTS 中，以更好地适应非稳态环境下的决策制定。经测试，PA-MCTS 相对于标准 MCTS 和纯强化学习能更快地收敛并做出更好的决策。

Feb, 2022

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023

串联马尔可夫链推理的策略梯度

该论文提出了一种新的强化学习决策框架，将智能体的行为建模为参数化推理马尔科夫链，利用可行的策略梯度估计进行优化，通过模拟推理马尔科夫链以接近其稳态分布来完成动作选择，并且可以通过适应性地缩短决策困难度来加速推理，该算法在诸如 Mujoco 和 DeepMind Control 等任务中实现了最先进的性能。

Oct, 2022

风险感知和多目标强化学习的蒙特卡罗树搜索算法

本文提出了两种基于蒙特卡罗树搜索的算法，能够针对非线性效用函数计算风险意识和多目标环境下的回报策略，并考虑累计回报，同时，这两个算法在多目标强化学习中，预期回报的表现超越了现有的最优算法。

Nov, 2022