精准指点，而非批评：通过精细的可操作反馈改进大型语言模型

Nov, 2023

精准指点，而非批评：通过精细的可操作反馈改进大型语言模型

Pinpoint, Not Criticize: Refining Large Language Models via Fine-Grained Actionable Feedback

Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang...

TL;DR使用细粒度的可行操作反馈，基于学习的错误定位模型预测的错误类型、错误位置和严重程度，提出了 FITO（一种推理时间优化方法）来进行迭代改进，通过一个生成改进输出的改进模型，迭代地结合反馈。我们在三个文本生成任务上进行了实验，包括机器翻译、长篇问答（QA）和主题摘要，在单次迭代的改进中，中英翻译和英德翻译分别观察到 0.8 和 0.7 的 MetricX 增益，问答和主题摘要分别观察到 4.5 和 1.8 的 ROUGE-L 增益。通过我们的模拟退火算法，我们看到进一步的质量改进，包括与基准方法相比高达 1.7 的 MetricX 改进。

Abstract

Recent improvements in text generation have leveraged human feedback to improve the quality of the generated output. However, human feedback is not always available, especially during inference. In this work, we propose an →

text generation inference time optimization fine-grained actionable feedback iterative refinement simulated annealing algorithm

发现论文，激发创造

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

重新审视指令精调模型评估以指导工业应用

指导微调（IFT）是一种强化大型语言模型（LLM）的零样本能力的强大范式，但在此过程中引入了新的评估指标要求。我们展示了基于 LLM 的评估指标适应这些要求，并利用它们对任务专业化策略进行调查，量化在实际工业环境中出现的权衡。我们的发现为从业者在实际的 IFT 模型部署中提供了可行的见解。

Oct, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

利用大型语言模型研究自动评分和反馈

使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

May, 2024

RL4F: 利用强化学习生成自然语言反馈以修复模型输出

本文提出了一种名为 RL4F 的多智能体协作框架，该框架使用强化学习训练评论生成器，使其能够优化 GPT-3 模型的性能，从而改进模型的输出效果，并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。

May, 2023

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

示范而非说明：用示范反馈来对齐语言模型

通过使用在线比较数据与用户示范作为反馈，DITTO 方法通过设置少量示范来将语言模型输出与用户的行为对齐，有效地进行语言模型的个性定制。

Jun, 2024