Sep, 2024

从演示中推断多目标强化学习的偏好

TL;DR本研究解决了多目标决策中难以了解决策者偏好的问题。提出了一种动态权重偏好推断算法(DWPI),通过演示推断决策者的偏好。研究表明,该算法在推断精度和时间效率上显著优于现有算法,并且可以在不与用户互动的情况下运行。