表面形式竞争:为什么最高概率答案并不总是正确的
该研究探讨了数学问题的表面形式与其是否能被大型语言模型解决之间的关系,并发现表面形式的微小改变可以显著影响答案分布和解决率,揭示了语言模型在推理复杂问题时缺乏鲁棒性和对表面形式的敏感性。为了提高数学推理性能,研究提出了自洽性超重述(SCoP)方法,该方法通过多样化问题的特定表面形式来多样化推理路径。通过对三个大型语言模型上的四个数学推理基准进行评估,研究表明 SCoP 相对于普通的自洽性方法可以提高数学推理性能,特别是对于最初被认为无法解决的问题。最后,研究提供了关于问题难度和表面形式的额外实验和讨论,包括模型间的难度一致性和重述的可迁移性,以及用于语言模型评估的变异性。
Apr, 2024
通过研究,我们发现文本答案比第一个标记概率更具鲁棒性,特别是在问题干扰和选项顺序改变的情况下,这进一步证明了对文本答案的评估优于对第一个标记概率的评估。
Apr, 2024
本文探讨了使用零射击方式相对于微调方法的优势,并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且,作者认为此种方法的健壮性应从表征组合性的角度进行解释。
Jan, 2022
该研究系统比较了多个选择题语言模型的不同预测方法,包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现,语言模型的预测结果在方法选择的变化下不具有稳健性,无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度,了解这种变异性对于确保结果的稳健性和研究诚信至关重要。
Mar, 2024
语言模型的先验知识与上下文信息的整合方式对不同问题和上下文情境具有可预见的特征,模型在涉及熟悉实体的问题中更依赖于先验知识,易受特定情境影响。我们提出两个基于互信息的度量,分别衡量模型对上下文的依赖和对实体先验的敏感性。通过经验测试,验证了这些度量的有效性和可靠性,并发现其与模型对实体的熟悉程度存在关联,提供两个使用案例来说明其优势。
Apr, 2024
本文提出一种方法,使用变分自动编码器将问题表示为一个潜在编码空间,从而解决了语义保留和句法创新之间的平衡问题,并使用分类器和 Vector-Quantized 变分自动编码器选择不同的表面形式进行英语问题的改写。
May, 2021
本研究旨在探究自然语言模型是否可以自我评估其答案准确性并预测正确答案概率,结果表明较大模型能够准确预测答案概率,训练可提高模型预测 P(IK)的能力,但模型在新任务上仍存在校准困难。
Jul, 2022
对于自动生成语言模型 (LLMs),评估其面临挑战的一个常见方法是使用多项选择题 (MCQ) 来限制回应的范围,通过排名候选答案首个 token 预测的对数概率来评估模型。然而,由于模型存在多样的回应方式,例如以 “当然” 开始或拒绝回答,首个 token 可能不一致地反映最后的回应输出。因此,MCQ 评估对于模型与用户交互时的行为并不具有指示作用。我们评估了首个 token 评估与文本输出在最终选项选择、拒绝率、选择分布和对提示扰动的鲁棒性等多个维度之间的一致性程度。结果显示,两种方法在所有维度上严重不一致,不一致率超过 60%。在对话或安全数据上进行大规模微调的模型尤其受到影响。关键是,即使我们越来越限制提示的方式,例如强制以选项字母或示例模板开始,模型仍然不一致。我们的发现强调了检查文本输出的重要性,并警告不能仅仅依赖于首个 token 的评估。
Feb, 2024
大型语言模型在多项选择问答任务中的最大 softmax 概率 (MSP) 与正确答案相比与错误答案相关性强,对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率,并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权,提出了一种能提高性能的多项选择问答任务。同样,我们使用预修正前 logit 进行了相同的实验,并获得了类似 (但不完全相同) 的结果。
Feb, 2024