通过互动演示教授语言模型自我提升

Oct, 2023

通过互动演示教授语言模型自我提升

Teaching Language Models to Self-Improve through Interactive Demonstrations

Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu

TL;DR通过 TriPosT 训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Abstract

The self-improving ability of large language models (LLMs), enabled by prompting them to analyze and revise their own outputs, has garnered significant interest in recent research. However, this ability has been shown to be absent and difficult to learn for smaller models, thus widenin

large language models self-improvement ability training algorithm math and reasoning tasks small models

发现论文，激发创造

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

基于错误学习的 LLM 教学：自动化模型改进

该研究介绍了创新的 “LLMs 作为教师” 的框架，利用先进的大型语言模型（LLMs）自动增强较小目标模型的训练。采用 “学习错误” 理论启发，该框架使用教师 LLM 细致分析目标模型中的具体错误，促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”，该框架实施了两种策略，分别关注错误响应以个性化训练数据，并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明，在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是，改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT，证明了我们方法的有效性。通过充分利用两种策略的优势，我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。

Jun, 2024

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

通过想象力、搜索和批评实现 LLM 的自我提升

AlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成，建立了一个自我改进循环，从而提高了 LLMs 的能力，同时避免了其他额外的注释，实验结果表明 AlphaLLM 显著提高了 LLMs 的性能。

Apr, 2024

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023