评估大型语言模型中的排除推理过程的难度

Nov, 2023

评估大型语言模型中的排除推理过程的难度

It's Not Easy Being Wrong: Evaluating Process of Elimination Reasoning in Large Language Models

Nishant Balepur, Shramay Palta, Rachel Rudinger

TL;DR链式思维激励（COT）与排除法（PoE）相结合可增强语言模型在错误答案推理方面的解释性，研究对自动医学诊断等任务中的排除法与 COT 的应用效果，并发现其性能低于直接选择正确答案，以及建议进一步研究该问题的错误分析。

Abstract

Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This strategy of process of elimination (PoE), when used with COT, has the potential to enhance →

chain-of-thought prompting process of elimination interpretability multiple-choice questions error analysis

发现论文，激发创造

POE: 多项选择推理的排除过程

在多项选择推理任务中，语言模型借鉴了人类首先排除错误选项的两步策略以提高性能，通过引入排除过程（POE）的两步评分方法，实验证明 POE 在逻辑推理任务上表现出色，并适用于 ChatGPT 这样的大型语言模型。

Oct, 2023

DialCoT 满足 PPO：在较小的语言模型中进行推理路径的分解与探索

通过对话引导的思维链技术（DialCoT）在小型语言模型中有效提升推理能力，采用 PPO 算法优化模型的推理路径选择，实验结果显示与其他竞争方法相比显著提升性能。

Oct, 2023

我们能为错误答案检测逐步验证吗？

通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Feb, 2024

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

使用选择性过滤减轻具有误导性的连续思维推理

通过选择性过滤推理程序（SelF-Reasoner）提高了大型语言模型的链式思考推理能力，进而改进了基于 T5 模型的科学问题、Bluetooth 问题和最后一个字母问题的解答质量。

Mar, 2024

迭代推理偏好优化

通过优化竞争产生的 Chain-of-Thought (CoT) 候选项之间的优先级，我们开发了一种迭代方法，通过优化导致正确答案的推理步骤的胜败来改进推理任务，这种方法在多个任务上取得了优于其他不使用其他数据集的 Llama-2 模型的性能。

Apr, 2024

评估逐步推理与词汇否定：一个对三段论的案例研究

大型语言模型在逐步推理指令（例如思维链提示）方面具有优势。在此基础上，它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面，重点关注难以处理的核心语言现象 —— 否定。通过引入几个受控设置（例如处理虚构实体时的推理）来评估模型的逻辑推理能力。我们观察到当进行逐步推理时，许多现代大型语言模型在处理否定词（例如 plausible -> implausible）时不具有鲁棒性，研究结果凸显了每个大型语言模型家族中独特的局限性。

Oct, 2023

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023