通过自我评估引导解码的分解增强推理

May, 2023

通过自我评估引导解码的分解增强推理

Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding

Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan...

TL;DR该研究提出了一种有效的提示方法，通过随机波束搜索融合自我评估指导，可以平衡生成链的质量 - 多样性权衡，并在少次学习的情况下，分别在 GSM8K、AQUA 和 StrategyQA 基准测试中比相应的 Codex-backboned 基线高出 6.34％、9.56％和 5.46％的准确度，同时通过细粒度推理又找到并解决了逻辑失误的问题，提高了一致性和鲁棒性。

Abstract

We propose an effective prompting approach that integrates self-evaluation guidance through stochastic beam search. Our approach explores the reasoning search space using a well-calibrated automatic criterion. Th

prompting approach self-evaluation guidance stochastic beam search reasoning chains few-shot accuracy

发现论文，激发创造

自洽性提高语言模型的思维连贯性推理能力

本文提出了一种新的解码策略 self-consistency 来替代自我解释式激励中的贪心解码，从而在多种常识推理基准测试中提高其性能。

Mar, 2022

问题分解提高模型生成推理的可信度

通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证 LLM 行为的正确性和安全性。

Jul, 2023

衡量视频问答的组成一致性

本文开发了一个问题分解引擎，能将组合问题分解为子问题的有向无环图。使用问题图，我们评估了三个最先进的模型，并使用一组新的组成一致性指标。我们发现，这些模型无法正确地通过大多数构图进行推理，或者依赖于错误推理来获得答案，并在中间的推理步骤失败时频繁地自相矛盾或达到高准确度。

Apr, 2022

分解复杂问题的连续提示

我们引入了 “连续提示”，通过将一个复杂的任务迭代地分解成简单任务并逐步解决，使得我们在限制监督的情况下，可以利用大型语言模型来回答需要做出潜在决策的复杂问题，并且在问题的分解和回答方面进行分别学习。

Dec, 2022

掌握复杂问题 ABCD：基于答案的主张分解进行细粒度自我评估

本文介绍了一种针对大型语言模型生成的答案自我评估技术，即 ABCD，该技术通过将复杂问题分解为一系列真假命题来验证模型生成的答案是否满足所有的问题标准，并进行精细化评估，实验证明该技术可以帮助发现模型的错误和知识盲区。

May, 2023

探索零样本视觉问答的问题分解

通过研究和应用视觉 - 语言模型，本文提出了问题分解策略和模型驱动的选择性分解方法，以提高视觉问答任务的准确性和性能。

Oct, 2023

小语言模型微调以协调更大的语言模型，提升复杂推理

引入 DaSLaM，使用分解生成器将复杂问题分解为需要更少推理步骤的子问题，由求解器回答。我们的方法在多个不同推理数据集上进行评估，表明 1750 亿参数 LM（text-davinci-003）可以产生与规模更大的 GPT-4 相比具有竞争力甚至更好的性能。

Oct, 2023

通过生成困难背景教学多步骤 QA 的广泛推理技能

利用自然语言问句的分解来指导模型学习不同宽度的推理，在构建约 900 种不同推理模式数据的同时提高了典型语言模型在 4 个多步问题问答数据集上的 F1 表现，具有更高的鲁棒性，使得在两个对比数据集上 F1 点数提高了 5-8 个点。

May, 2022

朝着全面答案更近一步：使用大型语言模型进行约束的多阶段问题分解

通过引入 “分解和查询”(D&Q) 框架，使得大规模语言模型在回答问题时能够避免幻觉，通过引导模型思考并利用外部知识，同时限制其思考范围在可靠信息内，从而有效减轻了幻觉的风险。实验证实了 D&Q 的有效性：在我们的 ChitChatQA 数据集上，D&Q 在 67％的情况下不输给 ChatGPT；在 HotPotQA 的仅问题设置下，D&Q 获得了 59.6％的 F1 得分。我们的代码可在此 https URL 找到。

Nov, 2023

迭代分解：通过监督推理过程提高科学问答

通过使用透明的中间状态进行复合会带来可解释性和安全性的好处，但可能需要工作流程支持和基础设施来保持竞争力，为此我们描述了一种人在循环中使用的对于开发和完善复合 LM 程序的工作流程，并开发了一个可视化 LM 程序执行跟踪的开源工具 - ICE，通过三个真实世界的案例将这一工作流程应用于 LM 程序，并比非组合基线提高了 LM 程序的准确性 - 描述随机对照试验中使用的安慰剂（25％到 65％），评估参与者遵守医疗干预（53％到 70％）以及在 Qasper 数据集上回答 NLP 问题（38％到 69％）。

Jan, 2023