语言模型通过外部指标反馈自我提升

Feb, 2024

语言模型通过外部指标反馈自我提升

Self-Refinement of Language Models from External Proxy Metrics Feedback

Keshav Ramji, Young-Suk Lee, Ramón Fernandez Astudillo, Md Arafat Sultan, Tahira Naseem...

TL;DR通过 Proxy Metric-based Self-Refinement，我们引入了一种方法来帮助 Large Language Models（LLMs）通过外部度量反馈逐步在质量关键维度上优化自己的回复，从而得到更好的最终回复。我们将 ProMiSe 应用于开源语言模型 Flan-T5-XXL 和 Llama-2-13B-Chat，并在基于文档的问答数据集 MultiDoc2Dial 和 QuAC 上评估其性能，证明了自我优化可以提高回复质量。此外，我们还展示了通过 ProMiSe 生成的合成对话数据对 Llama-2-13B-Chat 进行微调，相比零 - shot 基准和人工注释数据的监督微调模型，得到了显著的性能改进。

Abstract

It is often desirable for large language models (LLMs) to capture multiple objectives when providing a response. In document-grounded response generation, for example, agent responses are expected to be relevant

large language models proxy metric-based self-refinement response generation document-grounded question answering self-refinement

发现论文，激发创造

通过自身进一步优化 LLMs 的响应

通过提示工程实现自我优化的响应精炼框架可显著提高 GPT-3.5 模型的表现，从而使其甚至超越目前领先的 GPT-4 模型。

May, 2023

自我改进：带自反馈的迭代改进

通过引入 SELF-REFINE 框架，可以通过迭代反馈和改进从 LLMs 获得更好的输出，同时不需要监督训练数据或强化学习，且在 7 种任务中展现出优越性能。

Mar, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

通过互动演示教授语言模型自我提升

通过 TriPosT 训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

让语言模型能够从数据中隐式学习自我改进

我们提出了一种从人类偏好数据中隐式学习的自我改进框架（PIT），以最大程度地与人类偏好相一致，显著优于提示法方法。

Oct, 2023

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

大型语言模型可轻松自我修正

大型语言模型 (LLMs) 的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架，命名为 ProCo。与自我纠正相比，ProCo 在三种推理任务中的性能明显提高。

May, 2024

通过语言反馈教授语言模型自我提升

本文提出了自我优化调整（SRT）方法，利用模型反馈来对齐大规模语言模型（LLMs），减少对人类注释的依赖，实现基础模型的自我评估和输出改进，从而促进持续学习。经验证明，SRT 在不同任务和模型大小上明显优于强基线模型，特别是在 AlpacaEval 2.0 基准测试上，对于 70B 参数模型，胜率从 9.6% 提升至 25.8%，超过 GPT-4-0314、Claude 2 和 Gemini 等已建立的系统，语言反馈在 SRT 的成功中起着关键作用。

Jun, 2024