Feb, 2023

基于课程学习和稀疏奖励的自主空战机动决策

TL;DR本文在研究基于强化学习的自主空战机动决策方法时,考虑到稀疏奖励可能会导致训练时间长且效果不佳的问题,提出了基于课程学习的方法包括三个不同的课程:角度课程、距离课程和混合课程,实验结果表明,角度课程可以提高训练速度和性能,距离课程可以提高训练速度和稳定性,混合课程对训练有负面影响。最终通过模拟结果表明,在训练后,智能体能够处理来自不同方向的目标,并且决策结果与导弹特性一致。