POE: 多项选择推理的排除过程

EMNLPOct, 2023

POE: Process of Elimination for Multiple Choice Reasoning

Chenkai Ma, Xinya Du

TL;DR在多项选择推理任务中，语言模型借鉴了人类首先排除错误选项的两步策略以提高性能，通过引入排除过程（POE）的两步评分方法，实验证明 POE 在逻辑推理任务上表现出色，并适用于 ChatGPT 这样的大型语言模型。

Abstract

language models (LMs) are capable of conducting in-context learning for multiple choice reasoning tasks, but the options in these tasks are treated equally. As humans often first eliminate wrong options before pi

language models multiple choice reasoning tasks two-step strategy process of elimination logical reasoning tasks

发现论文，激发创造

评估大型语言模型中的排除推理过程的难度

链式思维激励（COT）与排除法（PoE）相结合可增强语言模型在错误答案推理方面的解释性，研究对自动医学诊断等任务中的排除法与 COT 的应用效果，并发现其性能低于直接选择正确答案，以及建议进一步研究该问题的错误分析。

Nov, 2023

ElimiNet：一种用于阅读理解多项选择题中选项消除的模型

本文提出 ElmiNet 这一基于神经网络的模型来进行阅读理解与多项选择题，融入了排除和选择的过程，使用 RACE 数据集进行实验并与现有模型进行比较。结果表明其在该数据集中有效性高于目前最先进的模型，并可以与基于选项选择的模型进行组合以获得更好的性能。

Apr, 2019

一鸣惊人：强大防御策略 Nested PoE 对多后门攻击的鲁棒性

数据污染后门攻击会对大型语言模型造成不良行为，我们提出了 Nested Product of Experts (NPoE) 防御框架，通过专业模型的混合实现对多个触发器类型的同时防御。实验结果表明，NPoE 能有效地防御各种类型的触发器。

Apr, 2024

通过规划进行推理的消除：引导 LLMs 的非线性思维的新框架

提出了一种新的提示方法 ——Inferential Exclusion Prompting（IEP），通过排除和推理的原则引导大型语言模型（LLMs）进行非线性思考。IEP 通过前向规划和后向排除的过程更好地模拟人类的复杂思维过程，并与其他基于 Chain-of-Thought（CoT）的方法相比，能够在各种任务中持续表现出色。此外，将 IEP 和 CoT 结合起来可以进一步提高 LLMs 在某些任务上的性能，突出了混合逻辑流程所必要的。此论文还介绍了 Mental-Ability Reasoning Benchmark（MARB）作为评估人类逻辑推理能力的综合特征的新方法。

Oct, 2023

像编程执行器一样推理

本文提出了 POET，一种新颖的推理预训练范式，使用程序及其执行结果对语言模型进行预训练，可以显著提高自然语言推理的模型性能，包括数字推理、逻辑推理和多跳推理。

Jan, 2022

关于大型语言模型在多选题中的选择偏差

通过对大型语言模型中多项选择题的研究，我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见，我们提出了一种名为 PriDe 的新方法，它通过计算先验分布来解决这一问题，该先验分布将选项内容与选项编号分离。PriDe 方法不仅无需标签，而且在推断过程中具有更高的效果和计算效率，通过对不同领域的样本进行训练，我们证明了 PriDe 方法估计出的先验分布具有良好的泛化能力，在更广泛的场景中具有实用潜力。

Sep, 2023

PoE：面向广义自动对话评估的专家小组

通过构建一个专门为领域通用而设计的 Panel of Experts（PoE）网络，我们实现了一个能够在多个对话领域实现最佳表现的其次对话评估度量标准（ADEM）。该网络包含了共享编码器和多个适应器，每个适应器都专注于一项特定领域并充当其领域专家。该模型以平均斯皮尔曼相关性的方式取得了各项评估指标上的最新成果，同时表现出比现有 ADEMs 更好的零 - shot 泛化能力，以及容易适应于少量转移学习的新领域。

Dec, 2022

从快捷方式到触发器：使用去噪 PoE 进行后门防御

该文提出了基于集成学习的 DPoE 框架，用于解决语言模型面临的各种不同类型后门攻击的防御问题，并在 SST-2 数据集上进行了验证，结果表明 DPoE 在不同类型的后门触发器下都能显著提高防御性能。

May, 2023

专家模型的可辨别性

对于具有二元潜在变量层和在已知潜在变量条件下独立同分布的二元可观测层的 Product of Experts 模型的可辨识性进行研究，证明当潜在变量均匀分布时，模型可通过与参数数量相等的可观测量来辨识，并且在更一般的任意分布情况下，模型的可辨识性需要的可观测量与参数数量成线性关系（是最佳情况的两倍）。证明依赖于某些特殊三项递推的根部交错现象。

Oct, 2023

数学推理的步骤级价值优化

我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法，它使用蒙特卡洛树搜索（MCTS）自动对多步推理进行步骤级别的偏好注释，并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为，从而提高大型语言模型的生成回报响应性能。实验证明，我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。

Jun, 2024