EMNLPNov, 2017

教师创建的大规模完形填空测试数据集

TL;DR本篇论文提出了一种新的人造填空测试数据集 CLOTH,并测试了基于语言模型、自动化模型,和人类模型的表现,结果显示人类模型比基线模型优秀,并且分析了基线模型不足之处,发现理解长时期语境是关键瓶颈。