Jan, 2024

利用 LLM 反馈进行强化学习以对抗目标误推

TL;DR介绍一种使用大型语言模型(LLM)反馈来解决强化学习中的目标误概化问题的方法,通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景,进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型,用这个基于 LLM 信息的奖励模型进一步训练 RL 代理,在迷宫导航任务中应用我们的方法,显示在目标广义化方面有明显改善,特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下,这项研究展示了 LLM 如何有效监督 RL 代理,在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。