InDEX: 印度尼西亚成语和表达数据集的填空测试
本篇论文提出了一种新的人造填空测试数据集CLOTH,并测试了基于语言模型、自动化模型,和人类模型的表现,结果显示人类模型比基线模型优秀,并且分析了基线模型不足之处,发现理解长时期语境是关键瓶颈。
Nov, 2017
本文基于多语言词嵌入(CLE)并从多个方面对CLW模型进行了全面评估,提出了优化CLE模型的方法及对现有基线进行重新评估的重要性。
Feb, 2019
本文提出了一个大规模的中文填空测试数据集ChID,用于研究汉语特有的习语理解,该数据集以候选成语替换文章中的成语,考察了候选成语的设计和成语表示对最先进模型的成绩表现的影响,结果显示机器准确率明显低于人类准确率,为今后的进一步研究留下了许多空间。
Jun, 2019
本文提供一个大规模的,用于英语自然语言处理的潜在成语表达(Potential Idiomatic Expression,PIE)数据集,其中包括超过1,200种逾二十一万个语料库样例,涵盖了十类(或意义)成语及其词义,提供了基准和比较三种常见的模型(包括BERT模型)的分类实验,该数据集可扩展,可用于各种NLP任务。
Apr, 2021
本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集,用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果,并且发现fine-tuning是学习包含MWE的句子表示的一种有效的样本高效方法。
Sep, 2021
本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练,将习惯用语结合到BART中取得了比基线模型(BART)更好的性能,包括在嵌入聚类方面提高了0.19分的同质化得分和在习惯用语处理任务中提高了高达25%的序列准确性,表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。
Jul, 2022
本研究提出了一种名为ClozE的新方法,采用基于掩码语言模型(MLM)实例化的填空模型来评估抽象化摘要与原始文本之间的事实一致性,并通过六个人工注释数据集和元评估基准GO FIGURE的实验表明ClozE相对于QA_metrics可以将评估时间减少近96%,同时保持其可解释性和性能。
Oct, 2022
本文利用结构探查方法研究成语信息在嵌入式系统中如何被结构化编码。静态嵌入法(GloVe)和上下文嵌入法(BERT)都能编码某些惯用信息,但在向量范数是否编码成语性的问题上存在矛盾现象,同时也指出了数据集的一些局限性和未来工作的方向。
Apr, 2023
在自然语言推理领域中,交叉熵损失度量被广泛应用于多输入文本分类任务,但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术,通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集,以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用ELECTRA-small模型进行分析,模型在常规的自然语言推理数据集上达到89.9%的准确率,但在对比集上准确率降低到了72.5%,下降了17%。由此结果导致我们对模型的学习行为进行了详细考察,然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调,将其准确率提升到了85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性,希望能促进创建更包容的数据集,从而推动更为复杂和有效的自然语言推理模型的发展。
Apr, 2024
通过在公共领域图书文本中替换可能成语化的英语名词复合词的同义词,我们创建了名词复合同义词替换数据集,探讨了用于成语性检测模型训练时数据数量和质量之间的平衡,同时考虑了从周围句子中获取的上下文信息和从语言资源中获取的外部信息。成语性检测任务的性能表明数据集质量对于含有上下文信息的模型更为重要,但对于不包含上下文策略的模型,数量也起到一定作用。
May, 2024