Jun, 2024

在线巴累托最优决策中的主动推理

TL;DR本研究旨在引入一种新颖的多目标强化学习框架,确保任务的安全执行,优化目标之间的权衡,并符合用户的偏好。该框架包含两个主要层次:多目标任务规划器和高层选择器。通过案例研究和基准测试,证明了我们的框架在操作和移动机器人方面优于其他方法,并且能够学习多个最优权衡解决方案,符合用户的偏好,并允许用户调整优化权衡的平衡。