POE: 多项选择推理的排除过程
链式思维激励(COT)与排除法(PoE)相结合可增强语言模型在错误答案推理方面的解释性,研究对自动医学诊断等任务中的排除法与 COT 的应用效果,并发现其性能低于直接选择正确答案,以及建议进一步研究该问题的错误分析。
Nov, 2023
本文提出 ElmiNet 这一基于神经网络的模型来进行阅读理解与多项选择题,融入了排除和选择的过程,使用 RACE 数据集进行实验并与现有模型进行比较。结果表明其在该数据集中有效性高于目前最先进的模型,并可以与基于选项选择的模型进行组合以获得更好的性能。
Apr, 2019
数据污染后门攻击会对大型语言模型造成不良行为,我们提出了 Nested Product of Experts (NPoE) 防御框架,通过专业模型的混合实现对多个触发器类型的同时防御。实验结果表明,NPoE 能有效地防御各种类型的触发器。
Apr, 2024
提出了一种新的提示方法 ——Inferential Exclusion Prompting(IEP),通过排除和推理的原则引导大型语言模型(LLMs)进行非线性思考。IEP 通过前向规划和后向排除的过程更好地模拟人类的复杂思维过程,并与其他基于 Chain-of-Thought(CoT)的方法相比,能够在各种任务中持续表现出色。此外,将 IEP 和 CoT 结合起来可以进一步提高 LLMs 在某些任务上的性能,突出了混合逻辑流程所必要的。此论文还介绍了 Mental-Ability Reasoning Benchmark(MARB)作为评估人类逻辑推理能力的综合特征的新方法。
Oct, 2023
通过对大型语言模型中多项选择题的研究,我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见,我们提出了一种名为 PriDe 的新方法,它通过计算先验分布来解决这一问题,该先验分布将选项内容与选项编号分离。PriDe 方法不仅无需标签,而且在推断过程中具有更高的效果和计算效率,通过对不同领域的样本进行训练,我们证明了 PriDe 方法估计出的先验分布具有良好的泛化能力,在更广泛的场景中具有实用潜力。
Sep, 2023
通过构建一个专门为领域通用而设计的 Panel of Experts(PoE)网络,我们实现了一个能够在多个对话领域实现最佳表现的其次对话评估度量标准(ADEM)。该网络包含了共享编码器和多个适应器,每个适应器都专注于一项特定领域并充当其领域专家。该模型以平均斯皮尔曼相关性的方式取得了各项评估指标上的最新成果,同时表现出比现有 ADEMs 更好的零 - shot 泛化能力,以及容易适应于少量转移学习的新领域。
Dec, 2022
该文提出了基于集成学习的 DPoE 框架,用于解决语言模型面临的各种不同类型后门攻击的防御问题,并在 SST-2 数据集上进行了验证,结果表明 DPoE 在不同类型的后门触发器下都能显著提高防御性能。
May, 2023
对于具有二元潜在变量层和在已知潜在变量条件下独立同分布的二元可观测层的 Product of Experts 模型的可辨识性进行研究,证明当潜在变量均匀分布时,模型可通过与参数数量相等的可观测量来辨识,并且在更一般的任意分布情况下,模型的可辨识性需要的可观测量与参数数量成线性关系(是最佳情况的两倍)。证明依赖于某些特殊三项递推的根部交错现象。
Oct, 2023
我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为,从而提高大型语言模型的生成回报响应性能。实验证明,我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。
Jun, 2024