May, 2024

通过对齐的经验估计实现高效的基于偏好的强化学习

TL;DRPbRL方法SEER通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。