EMNLPOct, 2020

OCNLI: 原生中文自然语言推理

TL;DR本篇论文针对全球大部分语言缺乏可靠的自然语言推理(NLI)数据集这一问题,提出了中国的首个大规模 NLI 数据集,并采用语言学专家来对其进行注释。通过使用中文预训练模型,对数据集进行了基线测试,发现即使是表现最好的模型,其性能也远远落后于人类,因此这一具有挑战性的新资源有望帮助加速中文 NLU 的进展。该数据集是首个非英语语言的人采集的 MNLI 风格数据集。