本文介绍了一个大规模的英语作为第二语言句子填空(SC)数据集,名为 SC-Ques,由 292,517 个真实世界中标准化英语考试中的 SC 问题组成。除此数据集外,基于该数据集,建立了一个综合性评测模型,通过训练大规模预训练语言模型自动解决 SC 问题。文中对基线模型的性能、限制和权衡进行了详细的分析。
Jun, 2022
本文提出了一个新的任务 —— 句子填空式机器阅读理解,并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明,目前先进的预训练模型仍然无法达到人类的水平。
Apr, 2020
本篇论文提出了一种新的人造填空测试数据集 CLOTH,并测试了基于语言模型、自动化模型,和人类模型的表现,结果显示人类模型比基线模型优秀,并且分析了基线模型不足之处,发现理解长时期语境是关键瓶颈。
Nov, 2017
本文提出一种分层编码器 - 解码器框架,其中使用静态和动态注意力机制,以生成更长、语义丰富、更贴近真实阅读理解考试的干扰项,其表现优于多个强基线模型。
Sep, 2018
本文通过探索预训练语言模型(PLMs)的应用作为备选项干扰项生成的替代方案,研究了填空干扰项的自动生成。实验证明,PLM 增强模型显著提高了性能,最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此链接中找到。
Mar, 2024
本文提出了一种自监督学习方法 SCD,其通过对输入句子进行联合自对比和去相关优化来学习表示,并通过利用标准 dropout 的实例化产生的对比来实现。该方法在多个基准测试中取得了与最先进方法相当的结果,而不使用对比对。
Mar, 2022
本文提出了一种基于连续提示的差异感知深度对比句子嵌入方法(D2CSE),它可以区分相似句子的细微差异并在自我引导的情况下使用对比学习和条件替换令牌检测来执行多个任务,同时减少了训练参数数量,并且在语义文本相似度基准测试中达到了最新的表现水平。
Apr, 2023
本文提出一种新的可配置框架,用于自动为开放领域的填空式多项选择题生成干扰选项,该框架整合了通用知识库以有效地创建较小的干扰候选集,并使用功能丰富的学习排序模型来选择既合理又可靠的干扰选项。实验结果表明,我们的框架产生的干扰选项比以前的方法更可信和可靠。此数据集也可用作将来干扰选项生成的基准。
本文介绍了 DiffCSE,一个无监督的对比学习框架,可以学习敏感于原始句子和编辑后句子之间差异的句子嵌入,通过朴素的掩码和掩码语言模型中的采样获得编辑后的句子,证明了 DiffSCE 是一种等变对比学习,并在语义文本相似性任务中取得了超越无监督 SimCSE 的最先进结果。
Apr, 2022
本研究旨在解决中文语义错误诊断(CSED)的问题,构建了 CSED 语料库,并且提出了一种针对 CSED 任务的基于句法的模型,该模型表现显著优于常规模型。
May, 2023