Jan, 2022

CommonsenseQA 2.0:通过游戏化揭示 AI 的局限性

TL;DR本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题,使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0,该数据集对比现有的深度学习模型难度更大(例如 T5-based Unicorn,精度达到 70.2%,而 GPT-3 只有 52.9%),但与人类表现相差甚远(94.1%)。