OCALM：基于语言模型的对象评估

Jun, 2024

OCALM: Object-Centric Assessment with Language Models

Timo Kaufmann, Jannis Blüml, Antonia Wüst, Quentin Delfosse, Kristian Kersting...

TL;DR使用OCALM从自然语言任务描述中提取内在可解释的奖励函数，帮助强化学习代理从任务描述中推导策略。

Abstract

Properly defining a reward signal to efficiently train a reinforcement learning (RL) agent is a challenging task. Designing balanced objective functions from which a desired behavior can emerge requires expert kn

发现论文，激发创造

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在Ultimatum游戏、矩阵游戏和DealOrNoDeal谈判任务中优于通过监督式学习学习的奖励函数训练的RL智能体。

Feb, 2023

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在RL代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在Crafter环境中实验表明RLAdapter超过了基线模型，且我们的框架下的代理展现出了常识行为。

Sep, 2023

视觉语言模型作为奖励的来源

使用视觉-语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从CLIP模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的RL代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的VLMs趋势，以更准确的视觉目标成就奖励，从而产生更有能力的RL代理。

Dec, 2023

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Feb, 2024

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练/微调范式，旨在增强LLMs的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

数据有效的强化学习高阶函数的典型奖励网络

利用Proto-RM框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024