Nov, 2023

深度贝叶斯强化学习用于航天器姿态调整和对接

TL;DR我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法,用于学习具有稳定性保证的控制策略,以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理,将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习,将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度,并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估,表现出令人印象深刻和有希望的性能。