Dec, 2024

离线偏好强化学习中的数据集内轨迹返回正则化

TL;DR本文针对离线偏好强化学习中准确建模逐步奖励的挑战,提出了“数据集内轨迹返回正则化(DTR)”方法。DTR通过条件序列建模和集成归一化技术,平衡了行为策略的保真性与基于高奖励标签的最佳行动选择,从而有效减轻了奖励偏差引发的轨迹拼接不准确问题,实验证明其优于其他先进基准。