自然语言推理中错误多少是由于释义的变异导致的？

ACLApr, 2024

自然语言推理中错误多少是由于释义的变异导致的？

How often are errors in natural language reasoning due to paraphrastic variability?

Neha Srikanth, Marine Carpuat, Rachel Rudinger

TL;DR大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标，该指标基于模型在同一问题的两个改写上的正确性概率，并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集，我们测量了几种模型类别的改写一致性，并展示了一致性随预训练而显著增加，而微调则没有。所有测试模型在改写一致性方面都有改进的空间。

Abstract

large language models have been shown to behave inconsistently in response to meaning-preserving paraphrastic inputs. At the same time, researchers evaluate the knowledge and reasoning abilities of these models with test evaluations that do not disaggregate the effect of paraphrastic v

large language models paraphrastic consistency natural language reasoning evaluation metric paranlu

发现论文，激发创造

预训练语言模型的一致性测量和提升

研究了预训练语言模型的一致性，发现它们在事实知识方面缺乏一致性，且表现良莠不齐；提出了一种改善模型一致性的方法，并在实验中证明其有效性。

Feb, 2021

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

多语种预训练语言模型的事实一致性

本文调查了多语言语言模型（如 mBERT 和 XLM-R）在一些语言下对事实知识预测的一致性，并发现尽管在英语下，这些模型的一致性与其单语言模型相似，但在其他 45 种语言下，这些模型的一致性程度却较低。

Mar, 2022

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在 TruthfulQA 数据集上评估多个 PLMs 的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

不改写，检测！用于语义解析的快速有效数据收集

本文针对自然语言和逻辑形式之间的映射、基于众包的数据收集方式存在的问题进行了深入分析，提出了一种结合模型和众包技术的数据收集方法，以减轻众包方法带来的偏差，实验结果表明，该方法对于自然语言和逻辑形式解析的准确度相对更高。

Aug, 2019

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

理解重述度量

提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量，并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。

May, 2022

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

评估文本蕴含模型的释义鲁棒性

本文介绍 PaRTE，一组 1126 个文本蕴含例子，用来评估模型是否对改写具有鲁棒性。文章指出，如果 RTE 模型真正理解语言，那么它们的预测应该在具有相同意义的输入之间保持一致。作者使用这个评估集合以确定 RTE 模型在对例子进行改写时是否会改变它们的预测。通过实验发现，当文本改写时，现代模型对 8-16% 的例子进行了预测更改，这表明仍有提高空间。

Jun, 2023