基于常识公理评估鲁棒推理能力的 RICA

EMNLPMay, 2020

基于常识公理评估鲁棒推理能力的 RICA

RICA: Evaluating Robust Inference Capabilities Based on Commonsense Axioms

Pei Zhou, Rahul Khanna, Seyeon Lee, Bill Yuchen Lin, Daniel Ho...

TL;DR我们提出了一项名为 RICA 的挑战，即基于常识公理的鲁棒推理能力，评估文本扰动下对强大的常识推理的鲁棒性。我们使用常识知识库和两种不同的评估设置开发了一个系统性和可扩展的程序来生成数据，并进行了广泛的实验表明，预训练语言模型在该零 - shot 设置下的表现不如随机猜测，并且对统计偏见的影响很大，也不具有扰动攻击的鲁棒性。我们的大规模基准测试暴露了预训练语言模型与人类语言理解的显著差距，并为模型提供了证明常识的新挑战。

Abstract

pre-trained language models (PTLMs) have achieved impressive performance on commonsense inference benchmarks, but their ability to employ commonsense to make robust inferences, which is crucial for effective comm

pre-trained language models commonsense inference robust inference capability commonsense knowledge bases perturbation attacks

发现论文，激发创造

BOOST：利用黑盒控制提升 LM 生成中的常识

我们提出了一种计算高效的框架，通过引导一个固定的预训练语言模型向更具常识的生成方式迈进，以产生一个合理的输出，该输出以一系列概念有意义的方式融合。测试结果表明，我们的方法在两个有限概念生成句子的基准上始终能够产生最具常识性的输出。

Oct, 2023

评估预训练语言模型中的常识

本研究考察了 GPT、BERT、XLNet 和 RoBERTa 等四个基于预训练语言模型的通感知能力，通过在七个具有挑战性的基准测试中测试他们，在促进模型通感知能力方面，语言建模及其变体是有效的目标，而双向上下文和更大的训练集是额外的加分项。此外，我们发现目前的模型在需要更多必要推理步骤的任务上表现不佳。最后，我们通过制作相关的双重测试用例来测试模型的鲁棒性。有趣的是，模型在这些测试用例上表现混乱，这表明它们只是在表面上学习通感知而不是深层次的知识。我们公开了一个名为 CATs 的测试集，以供未来的研究使用。

Nov, 2019

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021

为基于概念的常识构建预训练文本到文本变换模型

本文提出概念感知的语言模型 (CALM)，通过增强自监督学习任务以从文本中学习常识。CALM 可以在不依赖外部知识图谱的情况下将更多的常识知识整合到预先训练的文本转文本变压器的参数中，从而在自然语言理解和生成任务中实现更好的性能。

Oct, 2020

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用 ConceptNet 中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

分层推理用于直觉物理：向可验证的常识语言理解迈进

本文介绍了 Tiered Reasoning for Intuitive Physics（TRIP）的概念，这是一种用于解决机器语言理解和推理方面的通用常识推理数据集。作者指出，尽管大型预训练语言模型可以在终端任务上取得高端性能，但是它们在为其预测提供有效的支持证据方面表现不佳。作者提出的 TRIP 数据集和基线结果将有助于推动常识推理的可验证评估，并促进未来开发更好的语言理解和推理模型的研究。

Sep, 2021

评估零样本通识推理的置信度而非困惑度

本文提出一种新的通识推理度量标准 ——Non-Replacement Confidence (NRC)，通过 Replaced Token Detection (RTD) 预训练目标在 PLMs 上进行推理，提高了两个通识推理基准数据集和七个通识问题回答数据集的零 - shot 表现。

Aug, 2022

通过常识知识的提取和注入进行词汇限制的文本生成

本论文中，我们探讨如何运用常识知识图谱提高条件文本生成模型的综合性能，通过从 Conceptnet 中提取常识关系，将这些关系注入到 Unified Language Model (UniLM) 中，并通过输出约束强制实施词汇要求，以提高生成文本的语义正确性和符合人类理解，从而实现了匹配词性和完全概念覆盖的要求。

Dec, 2020

使用语义级别精度和扩展词汇探究预训练语言模型中常识知识

本研究探讨了如何在大型语言模型中丰富常识知识，并提出了一种基于 WordNet 的实化感知库对语言模型进行增强的方法，从而提高掩蔽式任务的预测精度。通过自我监督学习，在不进行进一步训练的情况下，实现了从 WordNet、WikiData 和 ConceptNet 中获取非平凡的常识知识，并比类似的基于相似性的方法更加有效。

Oct, 2022

为何神经语言模型在处理问题回答的语义变化时仍需要常识知识？

本文通过使用诊断测试，揭示了预训练 MNLM 中包含的常识知识，并发现 MNLM 模型不能准确理解语义关系，还存在对需要常识知识的语义变化的脆弱性。此外，我们发现了某些知识未被训练的根本原因，并通过在受控实验中利用外部常识知识库来丰富文本的方法，提出了克服 MNLM 模型的局限性的可能性。

Sep, 2022