OCALM:基于语言模型的对象评估
本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。
Feb, 2019
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
Mar, 2019
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在Ultimatum游戏、矩阵游戏和DealOrNoDeal谈判任务中优于通过监督式学习学习的奖励函数训练的RL智能体。
Feb, 2023
RLAdapter通过引入一个适配器模型,在强化学习和大型语言模型之间建立更好的联系,通过在RL代理的训练过程中生成的信息来微调轻量级语言模型,从而在适应下游任务方面提供更好的指导,并在Crafter环境中实验表明RLAdapter超过了基线模型,且我们的框架下的代理展现出了常识行为。
Sep, 2023
使用视觉-语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从CLIP模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的RL代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的VLMs趋势,以更准确的视觉目标成就奖励,从而产生更有能力的RL代理。
Dec, 2023
提出了一种自动生成奖励函数的方法RL-VLM-F,通过利用视觉语言基础模型的反馈,从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数,避免了人力成本和试错过程,在各个领域中成功产生了有效的奖励和策略,并优于使用大规模预训练模型的先前方法。
Feb, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练/微调范式,旨在增强LLMs的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
May, 2024
利用Proto-RM框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调,显著提高了适应性和准确性,并且在数据受限场景中比传统方法要求更少的数据。
Jun, 2024