强化学习微调语言模型对更可提取特征有偏向性

Nov, 2023

强化学习微调语言模型对更可提取特征有偏向性

Reinforcement Learning Fine-tuning of Language Models is Biased Towards More Extractable Features

Diogo Cruz, Edoardo Pona, Alex Holness-Tofts, Elias Schmied, Víctor Abia Alonso...

TL;DR通过控制实验，我们发现大型语言模型在自我监督预训练和强化学习微调阶段对于特征提取的归纳偏好在一定程度上一致，并且这些偏好与特征的利用程度和重要性具有显著相关性。

Abstract

Many capable large language models (LLMs) are developed via self-supervised pre-training followed by a reinforcement-learning fine-tuning phase, often based on human or AI feedback. During this stage, models may

large language models self-supervised pre-training reinforcement-learning fine-tuning inductive biases feature extraction

发现论文，激发创造

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

学习哪些特征重要：RoBERTa 最终掌握语言一般性

这篇研究介绍了一种新的英文诊断集合 MSGs，通过测试预训练模型在微调时是否更偏向于使用语言特征而非表层泛化。研究发现，模型可以在很少的预训练数据情况下学会语言特征，但需要更多数据来学习偏向于使用语言泛化。最终，经过约 30B 个单词的预训练数据，RoBERTa-base 表现出了语言偏差，但我们认为自我监督预训练是学习有用的归纳偏差的有效方法，但是需要改善模型学习哪些特征重要的速度。

Oct, 2020

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023

关于对文本驱动强化学习应用微调语言模型效果的研究

本文研究了基于文本的强化学习，讨论了语义理解和语言能力对强化学习代理的训练效率以及在类似语义训练游戏中的表现的影响，旨在为文本强化学习情景下的代理微调开发更好的策略。

Apr, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

基于解释的微调使模型对虚假线索更加鲁棒

本文提出了基于解释的微调作为一种缓解大型语言模型依赖错误相关的新颖通用方法，并在人工构建的训练集上微调模型，使其更加强壮。与标准微调不同，我们不仅仅针对输入进行预测，还微调模型以生成支持其答案的自由文本解释。与标准微调相比，我们的方法在四个分类任务中使模型对伪线索具有明显更强的稳健性。此外，我们的方法同样适用于由模型生成的解释，暗示了其在更多数据集上的适用性。

May, 2023