Sep, 2024

利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

TL;DR本研究解决了强化学习在高维系统中采样效率低和奖励设计挑战的问题。通过利用具有漂浮基底的机器人系统的李群对称性,将轨迹跟踪问题建模为马尔科夫决策过程,从而实现了在低维度“商”MDP上训练策略并应用于原始系统的最优控制器。研究表明,这种对称性的方法在加速训练和减少跟踪误差方面都具有显著效果。