从语言反馈中学习奖励

AAAISep, 2020

Learning Rewards from Linguistic Feedback

Theodore R. Sumers, Mark K. Ho, Robert D. Hawkins, Karthik Narasimhan, Thomas L. Griffiths

TL;DR本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Abstract

We explore unconstrained natural language feedback as a learning signal for artificial agents. Humans use rich and varied language to teach, yet most prior work on interactive learning from language assumes a par

natural language feedback interactive learning sentiment analysis markov decision process reinforcement learning

发现论文，激发创造

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

通过自然语言反馈在目标条件下强化学习中的利用

通过使用自动生成的语言反馈以及改进的决策变压器架构，在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。

Dec, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过自然语言反馈教机器描述图片

本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Jun, 2017

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

语言沟通作为 (反向) 奖励设计

本文提出了奖励设计的推广原则作为语言交流的基础，包括概括未知未来状态的线性赌博设置、演讲者模型和实用主义听众对演讲者潜在视角和奖励的联合推断。

Apr, 2022

学习模拟自然语言反馈进行交互式语义解析

提出了一种利用模拟的自然语言反馈来训练交互式语义解析器的任务和新颖的反馈评估器，证明该反馈模拟器可以在低数据集情况下，生成高质量的自然语言反馈来提高特定解析器的错误纠正能力。

May, 2023

弥合断层：自然语言生成中融入（人类）反馈的调查

本文对利用人类反馈来提高自然语言生成的研究进行了综述。通过介绍反馈的形式和目标，讨论了直接使用反馈或训练反馈模型两种方法在训练和解码过程中的应用。此外，我们还探讨了与反馈收集相关的现有数据集和问题，并提供了人工智能反馈领域的概述。

May, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

从自然语言监督中学习语义解析器

发展了一种从自然语言反馈中训练语义解析器的学习算法，为了使其直观可扩展性，该算法使用了用户纠正、会话记录等已有的自然语言数据作为监督信号，相对于使用严谨的逻辑形式或者特定答案的监督方法，可以接受那些并不熟悉语言形式的用户。研究还构建了一个自然语言反馈的对话数据集，并证明该方法对于从这些自然语言监督信号中学习语义解析器是有效的。

Feb, 2019