Jun, 2024

超越人类偏好:通过 LLMs 探索强化学习轨迹的评估与改进

TL;DR基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。