May, 2023

通过人类反馈的强化学习学习可解释的飞机操纵行为模型

TL;DR该研究通过采用人的反馈,使用一种名为强化学习(RL)的方法,提出一种捕捉快速喷气机飞行员处理能力的软件模型。该模型通过对模拟飞行轨迹的成对偏好进行学习,得出一个可解释的基于规则的模型(reward tree),它能够自动将轨迹进行评分,并生成解释性的原理。使用奖励树作为RL代理的导向目标,该代理能够执行高质量的处理行为,并产生数据用于迭代偏好收集和进一步的修正。实验结果表明,使用原型成对偏好的奖励树,在定性和定量评估中与不可解释的神经网络奖励模型具有相媲美的表现。