SocialIQA: 社交互动的常识推理
社交智能的研究需要理解和推理有关人类表情、意图和互动的社交智能。我们提出了一种方法来研究 Social Intelligence Queries(Social-IQ)的合理性,并发现 Social-IQ 包含了相当大的偏见。我们引入了一个新的具有挑战性的数据集 DeSIQ,通过对 Social-IQ 进行简单扰动构建,以解决原始 Social-IQ 数据集中的偏见问题。此外,我们还研究了模型大小、模型样式、学习设置、常识知识和多模态对新基准性能的影响。我们的新数据集、观察和发现为社交智能研究提供了重要的研究问题。
Oct, 2023
本研究针对 commonsense 在对话回应生成中的作用进行了实证研究,提出了一种新的对话数据集,并利用 ConceptNet 这个 commonsense 知识库,找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型,该研究提出的自动评估方法显示出一定合理的评价效果。
Sep, 2021
本文提出使用 SocialIQA 为例子,利用分类语义学意义,构建基于 SocialIQA 的标记社交知识类别数据集,并在此基础上训练神经 QA 模型,通过加入社交知识类别和知识库中的关系信息来完全表征这些 QA 任务。相较于以往研究,使用语义分类的社交知识模型可以达到与其他复杂方法相当的性能,且模型大小相对较小。
Sep, 2021
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
该研究提出了两种方法,通过外部常识知识图谱,隐式或显式地融入到预先训练好的自然语言处理模型中,以提高社交智能,这种方法对社交常识推理任务 SocialIQA 的表现在有限和完整的训练数据制度下都表现出良好的效果。
May, 2021
本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差,探究了缺失的知识维度,并为未来的研究提供了机会。
Nov, 2019
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchmark 的常见缺陷,调查了各种构建 commonsense benchmarks 的方法,总结了 139 个 commonsense benchmarks。然而,作者指出现有 benchmark 存在的空缺和 commonsense 推理的方面,并提出了未来的建议。
Feb, 2023
本文介绍了一个新的问答数据集,用于训练和评估人工智能系统在典型情况下的常识推理能力,数据集采用了家庭智慧问答秀中的问题集合,模型评估使用了生成式评估任务,并在多个基线模型中提出了挑战性的性能评估。结果表明,人类表现仍然超过模型成绩,支持任务的挑战性。
May, 2020
本文提倡将 commonsense knowledge acquisition 和 inference over commonsense knowledge 视为两个不同的任务,通过人类标注的方式评估模型的 commonsense inference capabilities,提出了一种新的 benchmark——CIKQA。
Oct, 2022
本论文调查了最近关于常识推理的谈话人工智能研究,列出了相关的训练数据集,并描述了在谈话人工智能中包含常识的主要方法,讨论了用于评估谈话人工智能中常识的基准,最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察,并对自然交互产生了负面影响,进一步激发了关于常识推理在谈话人工智能中的研究。
Feb, 2023