略施推力,NLI 模型可鲁棒高效地预测忠实度
本文探讨评估自然语言解释(NLEs)忠实度的挑战性问题,提出了两个测试:第一个是插入导致反事实预测的原因的反事实输入编辑器,第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型,是开发忠实 NLE 的基本工具。
May, 2023
本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求,提出了三种可信度测量方法,并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。
Apr, 2023
本文系统综述了自然语言生成(NLG)的忠实度问题和相关评估方法和优化方法,并将不同任务的评估和优化方法组织在一个统一的分类中,以促进不同任务之间的比较和学习。
Mar, 2022
研究利用自然语言推理(NLI)模型来提高对话摘要的覆盖率和忠实度,通过计算细粒度训练信号,产生内容在参考摘要中未被涵盖,并且区分生成的句子是与事实一致或不一致的,通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性,并通过自动度量和人类评估进行验证,另外,评估三个不同维度的对话摘要,计算常用自动度量与人类判断之间的相关性,以提供有关最适合评估对话摘要的度量标准的见解。
Jan, 2023
本文提出基于自然语言推断方法的评价指标,相比以往 BERT-based 评价指标更具鲁棒性,并结合其他评价指标可以同时提高鲁棒性和质量指标。
Aug, 2022
提出一种新指标 FFLM,结合基于概率变化的方法评估生成模型的忠实度,相比于强基准模型 ChatGPT 拥有更少的参数,并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。
Oct, 2023
本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确,并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对,进而将 QA 和 NLI 数据集结合以训练 NLI 模型,以此提高 QA 模型的准确性和置信度。
Apr, 2021
通过使用自动生成的标签特定的自然语言解释,提出了一种名为 NILE 的新型自然语言推理方法,它可以以高准确度产生标签及其合理解释,对比以前的方法,NILE 的有效性得到证明,同时论文也强调了模型解释的可信度评估是非常重要的。
May, 2020
本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证,无需额外的训练验证模型。
May, 2022