V-STaR：自主学习推理器的验证器训练

Feb, 2024

V-STaR：自主学习推理器的验证器训练

V-STaR: Training Verifiers for Self-Taught Reasoners

Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni...

TL;DR通过使用 DPO 判断模型生成的正确和错误解，V-STaR 提出了一种利用自我改进过程中生成的正确和错误解的方法，用于训练验证器，并在推理时从众多候选解中选择一种解，多次运行 V-STaR 可以逐渐提升推理能力和正确性，并在常见代码生成和数学推理基准中相较于现有的自我改进和验证方法提高了 4％至 17％的测试准确率。

Abstract

Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However,

self-improvement approaches large language models v-star dpo test accuracy improvement

发现论文，激发创造

STaR: 带着推理进行推理的自举

本文提出了一种名为 Self-Taught Reasoner (STaR) 的技术，该技术利用少量的依据样本和大型没有依据的数据集迭代提高语言模型的理解和应用复杂推理的能力，通过生成推理和反馈微调模型来逐步提升模型的性能，相比于直接预测答案的模型，STaR 在多个数据集上都有显著的性能提升，并与 30 倍大的最先进语言模型的微调性能相媲美，为模型通过自我生成的推理学习提供了可能。

Mar, 2022

Quiet-STaR: 语言模型能够自我教导在言语之前思考

在这篇论文中，作者提出了一种新方法 Quiet-STaR，通过使语言模型能够生成每个标记的理由来解释未来的文本，以改进其预测能力，并在不需要对这些任务进行微调的情况下，在多个基准测试中取得了显著的改进。

Mar, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024

训练验证程序员解决数学应用题

介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021

深入探究大型语言模型在逻辑推理中的自我验证能力

这篇论文研究了大型语言模型在逻辑推理中的自我验证能力，主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验，发现现有的大型语言模型在准确识别谬误的过程中可能存在困难，并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。

Nov, 2023

关于提高语言模型推理能力的进展

本文介绍了一种名为 DiVeRSe 的方法，通过增加提示多样性和引入验证器来进一步提高大型语言模型的推理能力，成功地在八个基准测试中的六个上达到了最新的最先进性能，其中包括 GSM8K。

Jun, 2022

大语言模型和答集编程实现可靠自然语言理解

提出了一个结合了大型语言模型和逻辑编程 Answer Set Programming 的框架 STAR，通过在语言上提取知识并利用 ASP 进行规定驱动的推理，以提高针对需要推理的 NLU 任务的性能和可解释性。

Feb, 2023

STAR: 社会技术方法在红队化语言模型中的应用

STAR 是一种社会技术框架，通过生成参数化指令来改进对大型语言模型的红队安全测试，提高了模型的可控性和信号质量。

Jun, 2024