略施推力，NLI 模型可鲁棒高效地预测忠实度

ACLMay, 2023

略施推力，NLI 模型可鲁棒高效地预测忠实度

With a Little Push, NLI Models can Robustly and Efficiently Predict Faithfulness

Julius Steen, Juri Opitz, Anette Frank, Katja Markert

TL;DR本文提出了一种利用数据增强和鲁棒推理过程将单纯的 NLI 模型用于预测语言模型忠实度的方法，应用于 TRUE 基准来说效果显著且计算代价较小。

Abstract

conditional language models still generate unfaithful output that is not supported by their input. These unfaithful generations jeopardize trust in real-world applications such as summarization or human-machine interaction, motivating a need for automatic →

conditional language models faithfulness metrics nli models data augmentation monte-carlo dropout

发现论文，激发创造

自然语言解释的忠实度测试

本文探讨评估自然语言解释（NLEs）忠实度的挑战性问题，提出了两个测试：第一个是插入导致反事实预测的原因的反事实输入编辑器，第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型，是开发忠实 NLE 的基本工具。

May, 2023

基准测试忠实度：关于在视觉语言任务中实现准确的自然语言解释

本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求，提出了三种可信度测量方法，并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。

Apr, 2023

文本摘要模型的事实准确性对抗 NLI

应用对抗 NLI 数据集来训练 NLI 模型，我们发现 Transformer 模型在摘要生成方面有较高的准确性。

May, 2020

自然语言生成中的忠实度：分析、评估和优化方法的系统调查

本文系统综述了自然语言生成（NLG）的忠实度问题和相关评估方法和优化方法，并将不同任务的评估和优化方法组织在一个统一的分类中，以促进不同任务之间的比较和学习。

Mar, 2022

SWING: 对话摘要的覆盖率和准确性的平衡

研究利用自然语言推理（NLI）模型来提高对话摘要的覆盖率和忠实度，通过计算细粒度训练信号，产生内容在参考摘要中未被涵盖，并且区分生成的句子是与事实一致或不一致的，通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性，并通过自动度量和人类评估进行验证，另外，评估三个不同维度的对话摘要，计算常用自动度量与人类判断之间的相关性，以提供有关最适合评估对话摘要的度量标准的见解。

Jan, 2023

MENLI: 自然语言推理的鲁棒性评估度量

本文提出基于自然语言推断方法的评价指标，相比以往 BERT-based 评价指标更具鲁棒性，并结合其他评价指标可以同时提高鲁棒性和质量指标。

Aug, 2022

以基于基础语言模型的零 - shot 忠诚度评估文本摘要

提出一种新指标 FFLM，结合基于概率变化的方法评估生成模型的忠实度，相比于强基准模型 ChatGPT 拥有更少的参数，并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。

Oct, 2023

自然语言推理模型能否验证问答系统的预测？

本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确，并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对，进而将 QA 和 NLI 数据集结合以训练 NLI 模型，以此提高 QA 模型的准确性和置信度。

Apr, 2021

NILE: 自然语言推理及其自然语言解释

通过使用自动生成的标签特定的自然语言解释，提出了一种名为 NILE 的新型自然语言推理方法，它可以以高准确度产生标签及其合理解释，对比以前的方法，NILE 的有效性得到证明，同时论文也强调了模型解释的可信度评估是非常重要的。

May, 2020

基于逆向推理的合理性的自然语言推理中具体例子的逻辑可满足性

本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证，无需额外的训练验证模型。

May, 2022