Dec, 2024
离线偏好强化学习中的数据集内轨迹返回正则化
In-Dataset Trajectory Return Regularization for Offline Preference-based
Reinforcement Learning
TL;DR本文针对离线偏好强化学习中准确建模逐步奖励的挑战,提出了“数据集内轨迹返回正则化(DTR)”方法。DTR通过条件序列建模和集成归一化技术,平衡了行为策略的保真性与基于高奖励标签的最佳行动选择,从而有效减轻了奖励偏差引发的轨迹拼接不准确问题,实验证明其优于其他先进基准。