Nov, 2022

自主空中移动的可解释和安全强化学习

TL;DR提出一种深度强化学习(DRL)控制器,通过将耦合的 Q 值学习模型分解为安全感知和效率两个模型,利用周围入侵者的信息作为输入来帮助解决自主自由飞行的冲突。通过该控制器,可以在克服 DRL 控制器的解释性和安全性问题的情况下提高控制任务的性能,同时提供关于环境安全情况的丰富信息。