语言模型是否能够执行假设式常识推理?
本研究介绍了一项关于抽象推理的新研究,并提出了两个基于新数据集 ART 的任务 ——《抽象自然语言推理》和《抽象自然语言生成》。 该研究分析了当前最佳自然语言生成器的性能水平,探索了现有深度学习模型在推理能力方面的局限性,并在进一步的研究中提出了有趣的新方向。
Aug, 2019
通过研究不寻常、意外和不太可能的情境,我们探索了非常识性推理的能力,发布了一个名为 UNcommonsense 的英语语料库,并比较人类解释者和最佳大型语言模型的表现差异,最终尝试了几种在线模仿学习算法来训练开放和易用的语言模型,在人工评估中,这些方法在常见和非常识性推理上一致降低了错误率。
Nov, 2023
本文提出一种利用后验正则化来促进建模向区分流畅解释和可信解释的逻辑推断模型,以实现无样本学习的非监督归纳通用推理的方法,并在多个推理数据集上进行实验,结果表明此方法在零样本学习上表现出色,优于直接应用预训练语言模型和其他知识增强方法。
May, 2023
通过产生多个抽象假设并将其转化为具体的 Python 程序,进而为大型语言模型提高归纳推理能力,并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序,从而在归纳推理任务中实现更高的准确性。
Sep, 2023
本文提出了一种基于排序的 $L2R^2$ 方法,用于解决自然语言推理任务中的假设排序问题,并使用 ESIM 或预训练语言模型(如 BERT 或 RoBERTa)作为评分函数,实验证明,该方法取得了 ART 数据集中最先进的性能水平。
May, 2020
本文提出了一种快速预测基于上下文表示的自然语言推理模型性能的方法,通过比较句子嵌入的余弦相似性,避免了费时的微调,减少了模型选择过程中的时间消耗。
Feb, 2022
本文提出了一种基于使用类比方法从类似示例中进行先前的解释传递的情形推理及案例推理自然语言推理模型,即 Case-Based Abductive Natural Language Inference (CB-ANLI),并在常识和科学问答任务上进行了实证评估,结果表明,CB-ANLI 可以有效地与稀疏和密集的预训练编码器集成以改善多次跳跃推理,或作为变压器的证据检索器。 此外,对语义漂移的实证分析表明,CBR 范式提高了最具挑战性的解释的质量,这一特性对下游推理任务的稳健性和准确性具有直接影响。
Sep, 2020
通过研究不同类型的推理方式,以及对语言模型进行的指令跟随、少样本提示和指令推断实验,我们发现即使在一些最大的语言模型中,推理的方式仍然是非系统性的,不同的学习机制可能被看似相似的提示程序调用。
Apr, 2024
提出了一个处理模糊的假设的新系统,使用自然语言生成模型来从一个前提中推出另一个前提并以双向的方式搜索。 使用回路验证程序过滤质量不佳的生成来确保正确性。 该系统在修改后的 EntailmentBank 数据集和名为 “Everyday Norms:Why Not?“的新数据集上表现出可以恢复跨领域和非领域的前提的能力。
Nov, 2022