Apr, 2024

多任务偏好对齐的正则化条件扩散模型

TL;DR在这项工作中,我们采用多任务偏好作为统一条件,既适用于单任务又适用于多任务决策,提出了与偏好标签对齐的偏好表示方法。通过引入一个辅助目标来最大化表示和生成的轨迹之间的互信息,改善了轨迹和偏好之间的对齐。在D4RL和Meta-World的大量实验证明,我们的方法在单任务和多任务场景中表现出良好的性能,并展现出与偏好的优越对齐性。