Apr, 2023

多目标强化学习中基于动态权重的演示偏好推断方法

TL;DR该研究提出了一种基于动态权重的偏好推断算法,通过观察环境中的行为轨迹,能够推断多目标决策问题中代理人的偏好,实验结果表明其相较于现有方法能够显著提高推断效率和准确性。