教师创建的大规模完形填空测试数据集
本文介绍了一份新的 “谁做了什么” 数据集,其中包含了超过 200,000 个填空阅读理解问题,使用 LDC 英语千万字级新闻语料库构建。数据集具有多种新特性,例如使用两个独立的文章来形成问题,其中每个选项都是命名实体,问题已被筛选,以剔除人类可以轻松解决的问题。同时,对标准系统进行了性能基准测试,并将该数据集作为社区挑战任务提出。
Aug, 2016
SCDE 是一个人类创造的句子填空数据集,旨在通过句子预测评估计算模型的性能,实验结果表明这项任务需要使用上下文内容,并且存在显著的性能差距。
Apr, 2020
本文提出了 BookTest 数据集作为处理自然语言数据的一种新的解决方案,证明使用该数据集可以使现有的注意力汇总阅读器模型在处理自然语言文本时得到显著的提高,并发现仍有改进的空间。
Oct, 2016
通过对语言模型的表现的一系列测试和测量,本文揭示语言模型的强项与局限,提出了利用填空测试结合词嵌入来度量 LM 的鲁棒性和置信度,结果显示语言模型虽然能够实现类人的准确性,但其置信度不足。将来的工作可以利用这一信息来构建更复杂的系统,如符号和分布式知识的集合。
Jan, 2022
本论文提出了第一个多目标变压器模型,用于构建完形填空测试,利用生成和辨别能力来提高性能,实验表明,我们的方法在自动和人工评估中可以达到 82%的准确性,超过了之前的方法和基线。
Apr, 2022
本文通过探索预训练语言模型(PLMs)的应用作为备选项干扰项生成的替代方案,研究了填空干扰项的自动生成。实验证明,PLM 增强模型显著提高了性能,最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此链接中找到。
Mar, 2024
本文提出了一个大规模的中文填空测试数据集 ChID,用于研究汉语特有的习语理解,该数据集以候选成语替换文章中的成语,考察了候选成语的设计和成语表示对最先进模型的成绩表现的影响,结果显示机器准确率明显低于人类准确率,为今后的进一步研究留下了许多空间。
Jun, 2019
本文提出了一个新的任务 —— 句子填空式机器阅读理解,并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明,目前先进的预训练模型仍然无法达到人类的水平。
Apr, 2020