本文提出了一种基于排序的 $L2R^2$ 方法,用于解决自然语言推理任务中的假设排序问题,并使用 ESIM 或预训练语言模型(如 BERT 或 RoBERTa)作为评分函数,实验证明,该方法取得了 ART 数据集中最先进的性能水平。
May, 2020
通过比较基本模型和指导调优后的 LLM 在英语句子合理性任务中的性能,本文综合研究了评估 LLM 中语义合理性的方式,并发现 LL 分数依然是最可靠的衡量 LLM 合理性的指标,而直接指引则不如之前所预期。
Mar, 2024
本文研究语言模型在推理任务中的语义相似性偏见问题,提出添加正则化损失的解决方案,能够提高模型泛化能力,在 BCOPA-CE 数据集上表现更为稳健且具有更好的表现。
Jul, 2021
本文提出了一种快速预测基于上下文表示的自然语言推理模型性能的方法,通过比较句子嵌入的余弦相似性,避免了费时的微调,减少了模型选择过程中的时间消耗。
Feb, 2022
本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务,用于直接帮助 LM 学习词汇语义信息,进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。
May, 2022
本研究证明了在使用预训练语言模型进行通识推理任务时,使用对比性的解释来完成解释提示可以提高性能并获得更准确的结果,同时提高人类可理解性。
Jun, 2021
本文探讨了使用零射击方式相对于微调方法的优势,并通过实验结果表明其在通用常识推理等二选一任务上表现出色。并且,作者认为此种方法的健壮性应从表征组合性的角度进行解释。
Jan, 2022
本文提出了一种利用模型与参考之间的可区分性来处理无效参考的算法,称为损失截断。与常用的 log 损失相比,该方法可以更好地应对嘈杂和无效的参考,并取得了更好的实验效果,生成的样本拥有超越基线并与人类参考相匹配的事实准确性评分。
Apr, 2020
我们提出了一种大间隔准则来训练神经语言模型,该模型的训练与最小化困惑度不同,通过增加语句的 “好” 和 “坏” 的间隔以进行特定任务的再评分,实验证明我们的方法在语音识别上可以减少 1.1 WER,在机器翻译中可以增加 1.0 BLEU。
Aug, 2018
通过引入基于逻辑推理的框架,创造出基于逻辑规则的非常透明的模型决策,从而提高自然语言推理模型的可解释性和鲁棒性,并在减少数据的情况下更进一步地改善了模型性能和鲁棒性。