Jun, 2024

联合演示与偏好学习改善与人类反馈的政策对齐

TL;DR将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型和策略,并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO,特别是当高质量偏好数据的数量相对有限时。