SocialIQA: 社交互动的常识推理

EMNLPApr, 2019

SocialIQA: Commonsense Reasoning about Social Interactions

Maarten Sap, Hannah Rashkin, Derek Chen, Ronan LeBras, Yejin Choi

TL;DRSocial IQa 是第一个针对社交情境常识推理的大规模基准库，包含 38000 个选择题对情感和社交智商的各种常见情境进行探究。研究通过众包采集常识问题及其正确和错误答案来评估社会互动中的推理能力，并证实 Social IQa 可作为通用常识知识迁移的资源，并在多个常识推理任务上取得了最先进的性能。

Abstract

We introduce social iqa, the first largescale benchmark for commonsense reasoning about social situations. social iqa contains 38,000 multiple choice questions for probing emotional and →

social iqa commonsense reasoning emotional intelligence social intelligence transfer learning

发现论文，激发创造

DeSIQ：面向社交智能理解的公正、具挑战性的基准评估

社交智能的研究需要理解和推理有关人类表情、意图和互动的社交智能。我们提出了一种方法来研究 Social Intelligence Queries（Social-IQ）的合理性，并发现 Social-IQ 包含了相当大的偏见。我们引入了一个新的具有挑战性的数据集 DeSIQ，通过对 Social-IQ 进行简单扰动构建，以解决原始 Social-IQ 数据集中的偏见问题。此外，我们还研究了模型大小、模型样式、学习设置、常识知识和多模态对新基准性能的影响。我们的新数据集、观察和发现为社交智能研究提供了重要的研究问题。

Oct, 2023

基于常识的对话生成：一个实证研究

本研究针对 commonsense 在对话回应生成中的作用进行了实证研究，提出了一种新的对话数据集，并利用 ConceptNet 这个 commonsense 知识库，找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型，该研究提出的自动评估方法显示出一定合理的评价效果。

Sep, 2021

通识问题回答的社交知识语义分类

本文提出使用 SocialIQA 为例子，利用分类语义学意义，构建基于 SocialIQA 的标记社交知识类别数据集，并在此基础上训练神经 QA 模型，通过加入社交知识类别和知识库中的关系信息来完全表征这些 QA 任务。相较于以往研究，使用语义分类的社交知识模型可以达到与其他复杂方法相当的性能，且模型大小相对较小。

Sep, 2021

CommonsenseQA：一个针对常识知识的问答挑战

该论文提出了一个常识问答的新数据集 ——CommonsenseQA，并采用了多个目标概念，旨在提高常识推理的难度，在使用 BERT-large 作为基线方法的情况下，最佳准确率为 56%。

Nov, 2018

在预训练模型中加入常识知识图谱以进行社交常识任务

该研究提出了两种方法，通过外部常识知识图谱，隐式或显式地融入到预先训练好的自然语言处理模型中，以提高社交智能，这种方法对社交常识推理任务 SocialIQA 的表现在有限和完整的训练数据制度下都表现出良好的效果。

May, 2021

PIQA：自然语言中关于物理常识的推理

本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差，探究了缺失的知识维度，并为未来的研究提供了机会。

Nov, 2019

自动常识推理基准：一项调查

论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchmark 的常见缺陷，调查了各种构建 commonsense benchmarks 的方法，总结了 139 个 commonsense benchmarks。然而，作者指出现有 benchmark 存在的空缺和 commonsense 推理的方面，并提出了未来的建议。

Feb, 2023

ProtoQA: 一个面向原型常识推理的问答数据集

本文介绍了一个新的问答数据集，用于训练和评估人工智能系统在典型情况下的常识推理能力，数据集采用了家庭智慧问答秀中的问题集合，模型评估使用了生成式评估任务，并在多个基线模型中提出了挑战性的性能评估。结果表明，人类表现仍然超过模型成绩，支持任务的挑战性。

May, 2020

CIKQA：一种基于知识循环的统一问答方法学习常识推理

本文提倡将 commonsense knowledge acquisition 和 inference over commonsense knowledge 视为两个不同的任务，通过人类标注的方式评估模型的 commonsense inference capabilities，提出了一种新的 benchmark——CIKQA。

Oct, 2022

面向对话 AI 的常识推理：现有技术综述

本论文调查了最近关于常识推理的谈话人工智能研究，列出了相关的训练数据集，并描述了在谈话人工智能中包含常识的主要方法，讨论了用于评估谈话人工智能中常识的基准，最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察，并对自然交互产生了负面影响，进一步激发了关于常识推理在谈话人工智能中的研究。

Feb, 2023