Jun, 2024
超越人类偏好:通过 LLMs 探索强化学习轨迹的评估与改进
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs
Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li
TL;DR基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。