MMJun, 2020

拥挤频谱环境下雷达检测和跟踪的深度强化学习控制

TL;DR本文采用深度强化学习(Deep RL)中的非线性价值函数逼近来实现智能脉冲雷达和相邻通信系统的动态非合作共存,并通过学习调整频率和中心频率,最大化雷达探测性能,保持对频带的充分利用。我们通过实验证明,与策略迭代或感知和避免(SAA)方法相比,基于 Deep Q-Learning(DQL)算法的方法更有效地提高雷达的重要性能度量,包括 SINR 和带宽利用率,同时维持良好的距离分辨率。我们还将 DQL 方法扩展到包括 Double Q-Learning 和递归神经网络,形成 Double Deep Recurrent Q-Network(DDRQN)。最后,我们用软件定义雷达(SDRadar)原型系统的实验结果证明了本文提出的深度强化学习方法在拥挤频谱环境下显著提高了雷达探测性能。