May, 2020

ProtoQA: 一个面向原型常识推理的问答数据集

TL;DR本文介绍了一个新的问答数据集,用于训练和评估人工智能系统在典型情况下的常识推理能力,数据集采用了家庭智慧问答秀中的问题集合,模型评估使用了生成式评估任务,并在多个基线模型中提出了挑战性的性能评估。结果表明,人类表现仍然超过模型成绩,支持任务的挑战性。