CommonsenseQA 2.0:通过游戏化揭示 AI 的局限性
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
在常识问题回答的情境下,我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响,最终取得了比同样规模的其他模型更好的性能,且在四个常识问题回答基准测试中,差距越变越小。
Sep, 2022
本研究评估了 GPT-4 在常识推理问题上的表现,重点关注 CommonsenseQA 数据集中的问题,发现 GPT-4 的准确性达到 83%,虽然没有达到人类的水平,但是表现出了很好的潜力,可推动人工智能领域的发展。
Mar, 2023
本论文调查了最近关于常识推理的谈话人工智能研究,列出了相关的训练数据集,并描述了在谈话人工智能中包含常识的主要方法,讨论了用于评估谈话人工智能中常识的基准,最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察,并对自然交互产生了负面影响,进一步激发了关于常识推理在谈话人工智能中的研究。
Feb, 2023
提出了一种 benchmark 以衡量语言模型在生成答案时是否真实,测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型,发现最好的模型能够在 58%的问题上保持真实,建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。
Sep, 2021
通过优化任务提示和生成多样化的链式推理和知识,该研究在 ProtoQA 数据集上实现了新的高分,并提供了对大型语言模型的解释,为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。
Sep, 2023
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchmark 的常见缺陷,调查了各种构建 commonsense benchmarks 的方法,总结了 139 个 commonsense benchmarks。然而,作者指出现有 benchmark 存在的空缺和 commonsense 推理的方面,并提出了未来的建议。
Feb, 2023
本文提出了将外部常识知识与语言模型相结合的方法,以提高多选题目中常识知识的应用。研究人员采用三种不同的知识插入策略和四种不同的问题 - 回答模型,分析预测结果并探索进一步改进的范围。
Sep, 2019
AI 模型通过使用以叙述为基础的问答数据集来提供定制化问答功能,以支持面向儿童教育应用;然而,现有数据集仅包括基于故事内容的问答对,而当教师将故事内容与现实世界的知识(例如常识知识)进行关联时,儿童可以学到更多。我们引入了由儿童教育专家注释的 FairytaleCQA 数据集,用于补充 278 个故事叙述的教育适用的常识知识。该数据集包含 5,868 个问答对,不仅源自故事叙述,而且包含由外部知识图(即 ConceptNet)支持的常识知识。后续实验表明,使用 FairytaleCQA 对较小模型(T5-large)进行微调,可在新的问答对生成任务(QAG)中可靠地胜过更大的提示工程化语言模型(例如 GPT-4)。这一结果表明:1)我们的数据集给现有语言模型带来了新的挑战,2)人类专家的数据注释仍然至关重要,因为他们在儿童教育领域拥有着更多细微的知识,语言模型不知晓。
Nov, 2023
研究人员基于知识增强的常识问答模型,在多个标准常识问答数据集上进行了大量实验,发现当前模型的知识潜力还远未被充分挖掘,提出了上下文敏感的知识选择、异构知识利用和基于常识的语言模型是未来常识问答的有效方向。
Jan, 2021