ACLJun, 2021

COM2SENSE:具备互补句子的常识推理基准

TL;DR本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性,并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集,通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析,并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明,我们最强的基线模型在微调后达到了约 71%的标准准确性和约 51%的成对准确性,远低于人类表现。