May, 2024

逃生飞行器导航设计之进化策略增强深度强化学习

TL;DR该研究论文研究了基于深度强化学习(DRL)的引导设计,其中逃逸飞行器(EFV)和追击飞行器(PFV)分别使用不同的引导命令生成方法,通过两步策略的组合,以保证给定规避距离下的残余速度最大化。模拟结果表明,基于PPO算法的引导设计方法在残余速度上优于Benchmark算法,而ES增强的PPO算法又进一步提高了残余速度。