Dec, 2022

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

TL;DR本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题,将整个决策过程分为两个循环,并采用 PPO 算法训练,实验结果表明,内部循环控制器的跟踪性能优于 PID 控制器,而外部循环策略可以执行复杂的机动以获得更高的获胜率,通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。