探索和分析机器通识常识基准测试
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchmark 的常见缺陷,调查了各种构建 commonsense benchmarks 的方法,总结了 139 个 commonsense benchmarks。然而,作者指出现有 benchmark 存在的空缺和 commonsense 推理的方面,并提出了未来的建议。
Feb, 2023
研究人员基于知识增强的常识问答模型,在多个标准常识问答数据集上进行了大量实验,发现当前模型的知识潜力还远未被充分挖掘,提出了上下文敏感的知识选择、异构知识利用和基于常识的语言模型是未来常识问答的有效方向。
Jan, 2021
本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准,该基准旨在评估通识常识的各种方面,并基于少量的训练和验证示例进行学习。通过初步的测试结果表明,该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。
Mar, 2022
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
本文提倡将 commonsense knowledge acquisition 和 inference over commonsense knowledge 视为两个不同的任务,通过人类标注的方式评估模型的 commonsense inference capabilities,提出了一种新的 benchmark——CIKQA。
Oct, 2022
通过语言模型的构建过程,使用 LM 生成问题 / 答案、改进答案和验证 QA,然后减少人工验证的工作量,我们提出了 Multilingual CommonsenseQA(mCSQA),这是一个用于评估多语言 LM 的跨语言语言传递能力的基准数据集。实验结果表明,多语言 LM 在处理容易解决的问题时具有较高的语言传递能力,但处理需要深入知识或常识的问题时传递能力较低。这凸显了对语言特定数据集进行评估和训练的必要性,最后,我们的方法证明了多语言 LM 能够创建包含语言特定知识的 QA,与手动创建相比,显著降低了数据集创建成本。
Jun, 2024
本文提出了将外部常识知识与语言模型相结合的方法,以提高多选题目中常识知识的应用。研究人员采用三种不同的知识插入策略和四种不同的问题 - 回答模型,分析预测结果并探索进一步改进的范围。
Sep, 2019
本文针对非萃取式常识问答(QA)这一具有挑战性的 AI 任务进行了探讨,对最近的常识 QA 方法、流行的知识资源和知识融合方法进行了系统分析,并研究了多个常识数据集上的基准测试。结果表明,注重知识融合的注意力注入方式似乎是一种较好的选择,并且知识库与数据集之间的领域重叠度对于确定模型的成功程度具有至关重要的作用。
Oct, 2019
本研究提出了一个基准来评估大型语言模型处理传统比喻的能力,并结合比喻检测和常识推理的先前孤立主题,要求模型在准确选择字面或隐喻文本之间作出推论。我们考察了最先进的预训练模型在二元选择任务中的表现,并发现小型和非常大型模型性能之间存在巨大差异,从机会之差到接近人类水平。我们还在生成模型的设置中分析了最大的模型,发现虽然接近人类性能,但需要仔细的多次提示。
Oct, 2022
本文提出使用 SocialIQA 为例子,利用分类语义学意义,构建基于 SocialIQA 的标记社交知识类别数据集,并在此基础上训练神经 QA 模型,通过加入社交知识类别和知识库中的关系信息来完全表征这些 QA 任务。相较于以往研究,使用语义分类的社交知识模型可以达到与其他复杂方法相当的性能,且模型大小相对较小。
Sep, 2021