可信度排序的学习

ACLJun, 2019

Learning to Rank for Plausible Plausibility

Zhongyang Li, Tongfei Chen, Benjamin Van Durme

TL;DR通过采用基于边界的损失，研究者展示了上下文编码策略的改进方式，在一系列共享的自然语言理解任务中取得了更好的表现。

Abstract

Researchers illustrate improvements in contextual encoding strategies via resultant performance on a battery of shared natural language understanding (NLU) tasks. Many of these tasks are of a categorical predicti

contextual encoding natural language understanding plausibility margin-based loss choice of plausible alternative

发现论文，激发创造

L2R2: 利用排名进行缺失推理

本文提出了一种基于排序的 $L2R^2$ 方法，用于解决自然语言推理任务中的假设排序问题，并使用 ESIM 或预训练语言模型（如 BERT 或 RoBERTa）作为评分函数，实验证明，该方法取得了 ART 数据集中最先进的性能水平。

May, 2020

基础模型和指令调整的大型语言模型的可信度估计比较

通过比较基本模型和指导调优后的 LLM 在英语句子合理性任务中的性能，本文综合研究了评估 LLM 中语义合理性的方式，并发现 LL 分数依然是最可靠的衡量 LLM 合理性的指标，而直接指引则不如之前所预期。

Mar, 2024

是行善还是行正？探索常识因果推理模型的缺陷

本文研究语言模型在推理任务中的语义相似性偏见问题，提出添加正则化损失的解决方案，能够提高模型泛化能力，在 BCOPA-CE 数据集上表现更为稳健且具有更好的表现。

Jul, 2021

简单尴尬：基于推断的自然语言推理性能预测

本文提出了一种快速预测基于上下文表示的自然语言推理模型性能的方法，通过比较句子嵌入的余弦相似性，避免了费时的微调，减少了模型选择过程中的时间消耗。

Feb, 2022

超越分布式假设：让语言模型学习意思 - 文本对应关系

本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务，用于直接帮助 LM 学习词汇语义信息，进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。

May, 2022

提供常识推理任务的对比解释

本研究证明了在使用预训练语言模型进行通识推理任务时，使用对比性的解释来完成解释提示可以提高性能并获得更准确的结果，同时提高人类可理解性。

Jun, 2021

伪对数似然在自然语言评分中的应用

本文探讨了使用零射击方式相对于微调方法的优势，并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且，作者认为此种方法的健壮性应从表征组合性的角度进行解释。

Jan, 2022

通过损失截断改善自然语言生成

本文提出了一种利用模型与参考之间的可区分性来处理无效参考的算法，称为损失截断。与常用的 log 损失相比，该方法可以更好地应对嘈杂和无效的参考，并取得了更好的实验效果，生成的样本拥有超越基线并与人类参考相匹配的事实准确性评分。

Apr, 2020

大边际神经语言模型

我们提出了一种大间隔准则来训练神经语言模型，该模型的训练与最小化困惑度不同，通过增加语句的 “好” 和 “坏” 的间隔以进行特定任务的再评分，实验证明我们的方法在语音识别上可以减少 1.1 WER，在机器翻译中可以增加 1.0 BLEU。

Aug, 2018

基于跨度级别预测的逻辑推理，实现可解释且鲁棒的自然语言推理模型

通过引入基于逻辑推理的框架，创造出基于逻辑规则的非常透明的模型决策，从而提高自然语言推理模型的可解释性和鲁棒性，并在减少数据的情况下更进一步地改善了模型性能和鲁棒性。

May, 2022