CREAK: 基于实体知识的常识推理数据集
近期在自然语言处理 (NLP) 常识推理研究领域,已经取得了大量新的数据集和基准(benchmark)。然而,这些数据集中的大部分在人工场景中构建常识推理挑战,不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW,这是一个手动筛选的多任务基准,用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建,通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度(如物理、时间和社交推理)上的表现。我们发现,在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距,这表明在真实任务环境中,常识推理远未解决。我们将数据集和排行榜提供给研究社区。
Oct, 2023
在知识图谱问答(KGQA)领域中,我们创建了一个新颖的 KGQA 数据集,支持常识推理并专注于长尾实体,这些实体是大语言模型容易产生错误信息的对象,因此需要借助知识图谱进行准确、可归因的常识推理。这个新数据集具有两个子任务:问题回答和声明验证。它对基于大语言模型的方法产生了显著的幻觉问题,为未来常识 KGQA 研究铺平了道路,以提供关于长尾实体的准确和可信的答案。
Mar, 2024
CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识,在不需要人类对图像实例进行注释的情况下,通过远程监督的多实例学习问题,从图像中提取 commonsense 知识的方法。实验结果表明,CLEVER 可以提取有质量的 commonsense 知识。
Nov, 2022
本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性,并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集,通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析,并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明,我们最强的基线模型在微调后达到了约 71%的标准准确性和约 51%的成对准确性,远低于人类表现。
Jun, 2021
AI 模型通过使用以叙述为基础的问答数据集来提供定制化问答功能,以支持面向儿童教育应用;然而,现有数据集仅包括基于故事内容的问答对,而当教师将故事内容与现实世界的知识(例如常识知识)进行关联时,儿童可以学到更多。我们引入了由儿童教育专家注释的 FairytaleCQA 数据集,用于补充 278 个故事叙述的教育适用的常识知识。该数据集包含 5,868 个问答对,不仅源自故事叙述,而且包含由外部知识图(即 ConceptNet)支持的常识知识。后续实验表明,使用 FairytaleCQA 对较小模型(T5-large)进行微调,可在新的问答对生成任务(QAG)中可靠地胜过更大的提示工程化语言模型(例如 GPT-4)。这一结果表明:1)我们的数据集给现有语言模型带来了新的挑战,2)人类专家的数据注释仍然至关重要,因为他们在儿童教育领域拥有着更多细微的知识,语言模型不知晓。
Nov, 2023
本文提出了一种多维模型的常识知识语句,以及一种关于相关语句集合的联合推理方法。通过将推理转化为整数线性规划,采用软约束和松弛 LP 的降维成本理论来计算信息化排序,本方法可以应用于多个大型 CSK 收集,最终可以将这些内容转化为更干净和更具表现力的知识。
Jan, 2020
使用自然语言序列和突出的注释收集人类的常识推理解释,形成一个名为 CoS-E 的新数据集。利用 CoS-E 训练语言模型,在 Commonsense Auto-Generated Explanation (CAGE) 框架中生成解释,可用于训练和推理。实验结果表明能够有效利用语言模型进行常识推理。
Jun, 2019
本研究提出新的任务 —— 通识事实连接,并构建了一个新的基准数据集 ComFact,结果表明启发式事实连接方法是不精确的知识提取器,而学习型事实连接模型则明显改善了下游任务表现。
Oct, 2022
提出了一种基于常识感知的知识图谱嵌入框架,能够从实体概念中自动提取常识,利用其拓展有效自我监督,同时通过常识和事实视角的链接预测实现高质量负采样,提高了知识图谱嵌入模型的性能。
Feb, 2022
本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型,该模型还利用了与每个话语相关的非结构化主题特定知识,并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分,还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。
May, 2022