PIQA：自然语言中关于物理常识的推理

AAAINov, 2019

PIQA：自然语言中关于物理常识的推理

PIQA: Reasoning about Physical Commonsense in Natural Language

Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, Yejin Choi

TL;DR本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差，探究了缺失的知识维度，并为未来的研究提供了机会。

Abstract

To apply eyeshadow without a brush, should I use a cotton swab or a toothpick? Questions requiring this kind of physical commonsense pose a challenge to today's natural language understanding systems. While recent pretrained models (such as BERT) have made progress on →

physical commonsense reasoning pretrained models piqa question answering knowledge

发现论文，激发创造

PACS：用于物理视听常识推理的数据集

通过构建音视频共同存在的数据集 PACS，我们首次衡量了人类执行物理力学任务的准确性，并证明了多模态（多感官）推理对于物理常识推理的重要性。

Mar, 2022

不要只听，动动脑筋：利用视觉常识解决非视觉任务

该论文探讨了图像中的视觉常识如何有助于文本任务，包括填空和视觉改写，并提出基于视觉的场景做为辅助实现对这些问题的回答，该方法表现优于基于文字的方案。

Feb, 2015

ProtoQA: 一个面向原型常识推理的问答数据集

本文介绍了一个新的问答数据集，用于训练和评估人工智能系统在典型情况下的常识推理能力，数据集采用了家庭智慧问答秀中的问题集合，模型评估使用了生成式评估任务，并在多个基线模型中提出了挑战性的性能评估。结果表明，人类表现仍然超过模型成绩，支持任务的挑战性。

May, 2020

通向可推广的神经符号共识问题回答系统

本文针对非萃取式常识问答（QA）这一具有挑战性的 AI 任务进行了探讨，对最近的常识 QA 方法、流行的知识资源和知识融合方法进行了系统分析，并研究了多个常识数据集上的基准测试。结果表明，注重知识融合的注意力注入方式似乎是一种较好的选择，并且知识库与数据集之间的领域重叠度对于确定模型的成功程度具有至关重要的作用。

Oct, 2019

CommonsenseQA：一个针对常识知识的问答挑战

该论文提出了一个常识问答的新数据集 ——CommonsenseQA，并采用了多个目标概念，旨在提高常识推理的难度，在使用 BERT-large 作为基线方法的情况下，最佳准确率为 56%。

Nov, 2018

SocialIQA: 社交互动的常识推理

Social IQa 是第一个针对社交情境常识推理的大规模基准库，包含 38000 个选择题对情感和社交智商的各种常见情境进行探究。研究通过众包采集常识问题及其正确和错误答案来评估社会互动中的推理能力，并证实 Social IQa 可作为通用常识知识迁移的资源，并在多个常识推理任务上取得了最先进的性能。

Apr, 2019

面向对话 AI 的常识推理：现有技术综述

本论文调查了最近关于常识推理的谈话人工智能研究，列出了相关的训练数据集，并描述了在谈话人工智能中包含常识的主要方法，讨论了用于评估谈话人工智能中常识的基准，最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察，并对自然交互产生了负面影响，进一步激发了关于常识推理在谈话人工智能中的研究。

Feb, 2023

如何通过额外知识来提升自然语言常识问答能力？

本文提出了将外部常识知识与语言模型相结合的方法，以提高多选题目中常识知识的应用。研究人员采用三种不同的知识插入策略和四种不同的问题 - 回答模型，分析预测结果并探索进一步改进的范围。

Sep, 2019

神经语言表征是否学习了物理常识？

本文研究了目前最先进的神经语言表示在物理常识推理方面的表现，结论显示，尽管神经语言模型在各种自然语言推理任务上表现出色，但在物理常识方面仍然只能学习到现有的明确规则和关联性。

Aug, 2019

通识问题回答的社交知识语义分类

本文提出使用 SocialIQA 为例子，利用分类语义学意义，构建基于 SocialIQA 的标记社交知识类别数据集，并在此基础上训练神经 QA 模型，通过加入社交知识类别和知识库中的关系信息来完全表征这些 QA 任务。相较于以往研究，使用语义分类的社交知识模型可以达到与其他复杂方法相当的性能，且模型大小相对较小。

Sep, 2021