表面形式竞争：为什么最高概率答案并不总是正确的

Apr, 2021

表面形式竞争：为什么最高概率答案并不总是正确的

Surface Form Competition: Why the Highest Probability Answer Isn't Always Right

Ari Holtzman, Peter West, Vered Shwartz, Yejin Choi, Luke Zettlemoyer

TL;DR本文介绍了一种基于特定情境下的先验概率进行计算的替代评分函数 (Domain Conditional Pointwise Mutual Information)，可以在多个零样本任务中获得一致的提升表现，尤其是在面对表面形式竞争的情况下。

Abstract

large language models have shown promising results in zero-shot settings (Brown et al.,2020; Radford et al., 2019). For example, they can perform

large language models zero-shot settings alternative scoring function surface form competition multiple choice tasks

发现论文，激发创造

关注答案选项并不总是意味着高的问题回答准确率

研究了大型语言模型的注意力问题对其在多项选择任务中性能的影响，提出了一种简单有效的增加注意力的方法，并得出了一些实用的结论。

May, 2023

剽窃和解决：探索并利用表面形式对大型语言模型的数学推理影响

该研究探讨了数学问题的表面形式与其是否能被大型语言模型解决之间的关系，并发现表面形式的微小改变可以显著影响答案分布和解决率，揭示了语言模型在推理复杂问题时缺乏鲁棒性和对表面形式的敏感性。为了提高数学推理性能，研究提出了自洽性超重述（SCoP）方法，该方法通过多样化问题的特定表面形式来多样化推理路径。通过对三个大型语言模型上的四个数学推理基准进行评估，研究表明 SCoP 相对于普通的自洽性方法可以提高数学推理性能，特别是对于最初被认为无法解决的问题。最后，研究提供了关于问题难度和表面形式的额外实验和讨论，包括模型间的难度一致性和重述的可迁移性，以及用于语言模型评估的变异性。

Apr, 2024

文本研究：经过指导调整的语言模型比你想象的多次选择筛选器更稳健

通过研究，我们发现文本答案比第一个标记概率更具鲁棒性，特别是在问题干扰和选项顺序改变的情况下，这进一步证明了对文本答案的评估优于对第一个标记概率的评估。

Apr, 2024

伪对数似然在自然语言评分中的应用

本文探讨了使用零射击方式相对于微调方法的优势，并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且，作者认为此种方法的健壮性应从表征组合性的角度进行解释。

Jan, 2022

语言模型对多项选择任务的预测在评分方法变化下不稳定

该研究系统比较了多个选择题语言模型的不同预测方法，包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现，语言模型的预测结果在方法选择的变化下不具有稳健性，无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度，了解这种变异性对于确保结果的稳健性和研究诚信至关重要。

Mar, 2024

语境与先验知识在语言模型中的比较

语言模型的先验知识与上下文信息的整合方式对不同问题和上下文情境具有可预见的特征，模型在涉及熟悉实体的问题中更依赖于先验知识，易受特定情境影响。我们提出两个基于互信息的度量，分别衡量模型对上下文的依赖和对实体先验的敏感性。通过经验测试，验证了这些度量的有效性和可靠性，并发现其与模型对实体的熟悉程度存在关联，提供两个使用案例来说明其优势。

Apr, 2024

意图保持改写的意义和形式分解

本文提出一种方法，使用变分自动编码器将问题表示为一个潜在编码空间，从而解决了语义保留和句法创新之间的平衡问题，并使用分类器和 Vector-Quantized 变分自动编码器选择不同的表面形式进行英语问题的改写。

May, 2021

语言模型（基本）知道它们知道的

本研究旨在探究自然语言模型是否可以自我评估其答案准确性并预测正确答案概率，结果表明较大模型能够准确预测答案概率，训练可提高模型预测 P（IK）的能力，但模型在新任务上仍存在校准困难。

Jul, 2022

我的答案是 C”：指令调整的语言模型中的首词概率与文本答案不匹配

对于自动生成语言模型 (LLMs)，评估其面临挑战的一个常见方法是使用多项选择题 (MCQ) 来限制回应的范围，通过排名候选答案首个 token 预测的对数概率来评估模型。然而，由于模型存在多样的回应方式，例如以 “当然” 开始或拒绝回答，首个 token 可能不一致地反映最后的回应输出。因此，MCQ 评估对于模型与用户交互时的行为并不具有指示作用。我们评估了首个 token 评估与文本输出在最终选项选择、拒绝率、选择分布和对提示扰动的鲁棒性等多个维度之间的一致性程度。结果显示，两种方法在所有维度上严重不一致，不一致率超过 60%。在对话或安全数据上进行大规模微调的模型尤其受到影响。关键是，即使我们越来越限制提示的方式，例如强制以选项字母或示例模板开始，模型仍然不一致。我们的发现强调了检查文本输出的重要性，并警告不能仅仅依赖于首个 token 的评估。

Feb, 2024

多项选择问答中，Softmax 概率（在很大程度上）预测大规模语言模型的正确性

大型语言模型在多项选择问答任务中的最大 softmax 概率 (MSP) 与正确答案相比与错误答案相关性强，对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率，并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权，提出了一种能提高性能的多项选择问答任务。同样，我们使用预修正前 logit 进行了相同的实验，并获得了类似 (但不完全相同) 的结果。

Feb, 2024