RORA: 强健自由文本理由评估

Feb, 2024

RORA: Robust Free-Text Rationale Evaluation

Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme...

TL;DR通过评估条件性 V - 信息以及对容易被小型模型利用的敏感特征进行鲁棒性评估，我们提出了一种针对标签泄漏的强韧的自由文本基于理由的评估方法 RORA，它在评估人类编写、合成或模型生成的基于理由时提供了更可靠和准确的度量，尤其是对于标签泄漏展现出了鲁棒性。

Abstract

free-text rationales play a pivotal role in explainable nlp, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a correspond

free-text rationales explainable nlp evaluation metrics label leakage rora

发现论文，激发创造

自由文本理由的信息理论评估

提出了一种基于信息论的度量方法 REV，可以量化自由文本推理中支持给定标签的理由中的新信息，并通过定量比较证明该方法较现有指标能够更敏感地测量文本中新信息的能力，此度量方法还与人类评判的评估结果一致，为模型的推理和预测过程提供更深入的洞见，尤其在与传统性能度量结合使用时表现良好。

Oct, 2022

标签和自由文本原因之间的相关性测量

该研究探讨了自然语言理解中的可解释性问题，通过研究有理据的例子，并提出了一种能够联想标签和理由的度量方法，成功地验证了新的联合模型在生动文本解释方面的可信度。

Oct, 2020

评估自由文本解释的理由标签一致性指标

提出了一个名为 FRAME 的框架，它是一个评估自由文本 rationale 的一致性度量的框架。我们发现现有的度量无法满足 FRAME 的三个公理，因此引入了一个新的非预训练 RLC 指标，在最大化 RLC 的同时很好地适应了语义扰动。最后还讨论了使用 RLC 评估自由文本 rationale 的局限性。

Jul, 2022

理性化是否能提高稳健性？

本研究探讨了神经 NLP 模型的可解释性和鲁棒性之间的相互作用，试图通过有理化的过程来提高模型的鲁棒性，并针对五个不同的任务进行了实证评估。实验结果表明，理性模型有可能提高其鲁棒性，但它们在某些情况下会面临一定的挑战，并不总是表现得比无人为监督的模型更好。

Apr, 2022

生成的自由文本理由在主观决策中的说服力：一项关于两两论证排名的案例研究

分析了使用大型语言模型生成的自由文本解释对于主观答案的重要性，并评估了九个开源语言模型生成的自由文本解释的说服力，结果显示主观排序任务中 Llama2-70B-chat 模型的解释具有高度说服力，超过了 GPT 模型，并发现通过引导或自我改进可以提高解释的说服力。

Jun, 2024

何去学习以及如何：迈向有效的理由学习

通过实证分析人类解释的两个特点，即最大化理性监督准确性未必是提高模型准确性的最佳目标和人类理性是否提供足够信息以供模型进行预测，我们在此基础上提出了几种新的损失函数和学习策略，在三个包含有人类理性的数据集上进行评估，结果显示出了不断改进的基线，包括 MultiRC 上的 3% 精度提高。我们的研究强调了理解人类解释的特性，并据此进行模型训练的重要性。

Nov, 2021

不借助监督探索忠实句级解释

本研究提出了一种不同于传统管道式或强化学习方法的可微分训练框架，以在句子层面仅应用目标任务监督来输出具有可信度的原因，并在三个不同数据集上展示了竞争性表现和更好的性能。

Oct, 2020

REFER: 解释规范化的端到端关键抽取框架

我们提出了一种名为 REFER 的框架，利用可微分的 rationale extractor 来通过在训练过程中使用人工标注的重点提取训练任务模型和 rationale extractor，从而在忠实度、可信度和下游任务准确率方面显著提升性能。

Oct, 2023

无锁多方面文本分类理性化

本文提出了一种多阶段培训方法，将自我监督对比损失纳入其中，并证明可以帮助生成更多语义多样的理性化解释，从而改善了啤酒评论数据集的实验结果，并解决了互锁问题。

May, 2022

AURA: 有理据中的自然语言推理与偶然性不确定性

处理引起不确定性的不完美理由，根据理由的歧义性，我们指导模型选择两种不同的推理模型，从而提供稳健的性能优势。

Feb, 2024