教师创建的大规模完形填空测试数据集

EMNLPNov, 2017

教师创建的大规模完形填空测试数据集

Large-scale Cloze Test Dataset Created by Teachers

Qizhe Xie, Guokun Lai, Zihang Dai, Eduard Hovy

TL;DR本篇论文提出了一种新的人造填空测试数据集 CLOTH，并测试了基于语言模型、自动化模型，和人类模型的表现，结果显示人类模型比基线模型优秀，并且分析了基线模型不足之处，发现理解长时期语境是关键瓶颈。

Abstract

Cloze tests are widely adopted in language exams to evaluate students' language proficiency. In this paper, we propose the first large-scale human-created cloze test →

cloze test language proficiency dataset baseline models comprehension

发现论文，激发创造

谁做了什么：一个大规模的人以为中心的填空数据集

本文介绍了一份新的 “谁做了什么” 数据集，其中包含了超过 200,000 个填空阅读理解问题，使用 LDC 英语千万字级新闻语料库构建。数据集具有多种新特性，例如使用两个独立的文章来形成问题，其中每个选项都是命名实体，问题已被筛选，以剔除人类可以轻松解决的问题。同时，对标准系统进行了性能基准测试，并将该数据集作为社区挑战任务提出。

Aug, 2016

SCDE：来自考试的高质量干扰项的句子填空数据集

SCDE 是一个人类创造的句子填空数据集，旨在通过句子预测评估计算模型的性能，实验结果表明这项任务需要使用上下文内容，并且存在显著的性能差距。

Apr, 2020

拥抱数据丰富性：阅读理解 BookTest 数据集

本文提出了 BookTest 数据集作为处理自然语言数据的一种新的解决方案，证明使用该数据集可以使现有的注意力汇总阅读器模型在处理自然语言文本时得到显著的提高，并发现仍有改进的空间。

Oct, 2016

通过填空测试评估机器常识

通过对语言模型的表现的一系列测试和测量，本文揭示语言模型的强项与局限，提出了利用填空测试结合词嵌入来度量 LM 的鲁棒性和置信度，结果显示语言模型虽然能够实现类人的准确性，但其置信度不足。将来的工作可以利用这一信息来构建更复杂的系统，如符号和分布式知识的集合。

Jan, 2022

利用 Transformers 的生成和判别能力构建开放式填空测试

本论文提出了第一个多目标变压器模型，用于构建完形填空测试，利用生成和辨别能力来提高性能，实验表明，我们的方法在自动和人工评估中可以达到 82％的准确性，超过了之前的方法和基线。

Apr, 2022

注意力求和读者网络的文本理解

该研究提出了一种使用注意力机制直接从文本中选取答案的模型，特别适用于以文本中某个单词为答案的问题，并在多个数据集上取得了新的最优成绩。

Mar, 2016

CDGP: 基于预训练语言模型的自动填空干扰项生成

本文通过探索预训练语言模型（PLMs）的应用作为备选项干扰项生成的替代方案，研究了填空干扰项的自动生成。实验证明，PLM 增强模型显著提高了性能，最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此链接中找到。

Mar, 2024

ChID: 一份大规模的中文成语完形填空数据集

本文提出了一个大规模的中文填空测试数据集 ChID，用于研究汉语特有的习语理解，该数据集以候选成语替换文章中的成语，考察了候选成语的设计和成语表示对最先进模型的成绩表现的影响，结果显示机器准确率明显低于人类准确率，为今后的进一步研究留下了许多空间。

Jun, 2019

使用 GPT-turbo 3.5 自动生成英语词汇多选填空问题

使用大型语言模型自动生成填空题，并评估其有效性和适用性，通过生成适当的句子和选择合适的答案，以提高学生的词汇掌握水平。

Mar, 2024

一份中文机器阅读理解句子填空数据集

本文提出了一个新的任务 —— 句子填空式机器阅读理解，并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明，目前先进的预训练模型仍然无法达到人类的水平。

Apr, 2020