回顾之链：通过反馈让语言模型进行校准

Feb, 2023

Chain of Hindsight Aligns Language Models with Feedback

Hao Liu, Carmelo Sferrazza, Pieter Abbeel

TL;DR通过 Chain of Hindsight 技术，可以用各种形式的反馈来 fine-tuning 语言模型，从而使得它们可以更好地满足人类的偏好，具有更好的性能。

Abstract

learning from human preferences is important for language models to be helpful and useful for humans, and to align with human and social v

发现论文，激发创造

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

AI 模型如 ChatGPT 存在可靠性和一致性问题，本文通过引入 Chain-of-Feedback 触发模型偏离实际答案，提出一种新的提示方法 Recursive Chain of Feedback (R-CoF)，以修正模型最初错误的推理。

Feb, 2024

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

本文提出使用机器人强化学习来学习自然语言目标表示的问题。通过提出回顾指令重播机制、seq2seq 模型和基于语言的学习任务，解决了自然语言的组合性和触觉数据和行为之间的联系问题，并展示了学习性能的提高。

Apr, 2022

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

人类反馈在大型语言模型中被广泛应用，本研究回顾了现有的人类反馈学习方法，并提出了未解决的五个概念和实践上的挑战。

Oct, 2023

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023