PIQA:自然语言中关于物理常识的推理
该论文探讨了图像中的视觉常识如何有助于文本任务,包括填空和视觉改写,并提出基于视觉的场景做为辅助实现对这些问题的回答,该方法表现优于基于文字的方案。
Feb, 2015
本文介绍了一个新的问答数据集,用于训练和评估人工智能系统在典型情况下的常识推理能力,数据集采用了家庭智慧问答秀中的问题集合,模型评估使用了生成式评估任务,并在多个基线模型中提出了挑战性的性能评估。结果表明,人类表现仍然超过模型成绩,支持任务的挑战性。
May, 2020
本文针对非萃取式常识问答(QA)这一具有挑战性的 AI 任务进行了探讨,对最近的常识 QA 方法、流行的知识资源和知识融合方法进行了系统分析,并研究了多个常识数据集上的基准测试。结果表明,注重知识融合的注意力注入方式似乎是一种较好的选择,并且知识库与数据集之间的领域重叠度对于确定模型的成功程度具有至关重要的作用。
Oct, 2019
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
Social IQa 是第一个针对社交情境常识推理的大规模基准库,包含 38000 个选择题对情感和社交智商的各种常见情境进行探究。研究通过众包采集常识问题及其正确和错误答案来评估社会互动中的推理能力,并证实 Social IQa 可作为通用常识知识迁移的资源,并在多个常识推理任务上取得了最先进的性能。
Apr, 2019
本论文调查了最近关于常识推理的谈话人工智能研究,列出了相关的训练数据集,并描述了在谈话人工智能中包含常识的主要方法,讨论了用于评估谈话人工智能中常识的基准,最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察,并对自然交互产生了负面影响,进一步激发了关于常识推理在谈话人工智能中的研究。
Feb, 2023
本文提出了将外部常识知识与语言模型相结合的方法,以提高多选题目中常识知识的应用。研究人员采用三种不同的知识插入策略和四种不同的问题 - 回答模型,分析预测结果并探索进一步改进的范围。
Sep, 2019
本文研究了目前最先进的神经语言表示在物理常识推理方面的表现,结论显示,尽管神经语言模型在各种自然语言推理任务上表现出色,但在物理常识方面仍然只能学习到现有的明确规则和关联性。
Aug, 2019
本文提出使用 SocialIQA 为例子,利用分类语义学意义,构建基于 SocialIQA 的标记社交知识类别数据集,并在此基础上训练神经 QA 模型,通过加入社交知识类别和知识库中的关系信息来完全表征这些 QA 任务。相较于以往研究,使用语义分类的社交知识模型可以达到与其他复杂方法相当的性能,且模型大小相对较小。
Sep, 2021