InDEX: 印度尼西亚成语和表达数据集的填空测试

Nov, 2022

InDEX: 印度尼西亚成语和表达数据集的填空测试

InDEX: Indonesian Idiom and Expression Dataset for Cloze Test

Xinying Qiu, Guofeng Shi

TL;DR我们提出了InDEX，这是一个针对填空测试的印度尼西亚习语和表达数据集，其中包含10438个独特的句子，用于289个习语和表达式，我们生成了15种不同类型的干扰，从而形成了一个大型的填空式语料库。通过实验，发现将定义与随机初始化结合是增强基线模型并提高填空测试模型性能的更好方法。

Abstract

We propose index, an indonesian idiom and expression dataset for cloze

发现论文，激发创造

教师创建的大规模完形填空测试数据集

本篇论文提出了一种新的人造填空测试数据集CLOTH，并测试了基于语言模型、自动化模型，和人类模型的表现，结果显示人类模型比基线模型优秀，并且分析了基线模型不足之处，发现理解长时期语境是关键瓶颈。

Nov, 2017

如何（正确地）评估跨语言词向量：关于强基线、比较分析及一些误解

本文基于多语言词嵌入（CLE）并从多个方面对CLW模型进行了全面评估，提出了优化CLE模型的方法及对现有基线进行重新评估的重要性。

Feb, 2019

ChID: 一份大规模的中文成语完形填空数据集

本文提出了一个大规模的中文填空测试数据集ChID，用于研究汉语特有的习语理解，该数据集以候选成语替换文章中的成语，考察了候选成语的设计和成语表示对最先进模型的成绩表现的影响，结果显示机器准确率明显低于人类准确率，为今后的进一步研究留下了许多空间。

Jun, 2019

潜在习语表达（PIE）英语：习语类语料库

本文提供一个大规模的，用于英语自然语言处理的潜在成语表达（Potential Idiomatic Expression，PIE）数据集，其中包括超过1,200种逾二十一万个语料库样例，涵盖了十类（或意义）成语及其词义，提供了基准和比较三种常见的模型（包括BERT模型）的分类实验，该数据集可扩展，可用于各种NLP任务。

Apr, 2021

预训练语言模型中习语的探索数据集和方法

本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集，用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果，并且发现fine-tuning是学习包含MWE的句子表示的一种有效的样本高效方法。

Sep, 2021

让BART乘坐惯用语列车：学习表示惯用表达式

本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练，将习惯用语结合到BART中取得了比基线模型(BART)更好的性能，包括在嵌入聚类方面提高了0.19分的同质化得分和在习惯用语处理任务中提高了高达25%的序列准确性，表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。

Jul, 2022

Just ClozE!在抽象化摘要里评估事实一致性的快速简单方法

本研究提出了一种名为ClozE的新方法，采用基于掩码语言模型（MLM）实例化的填空模型来评估抽象化摘要与原始文本之间的事实一致性，并通过六个人工注释数据集和元评估基准GO FIGURE的实验表明ClozE相对于QA_metrics可以将评估时间减少近96％，同时保持其可解释性和性能。

Oct, 2022

成语、探针和危险之物：面向向量空间中成语性结构探查的研究

本文利用结构探查方法研究成语信息在嵌入式系统中如何被结构化编码。静态嵌入法(GloVe)和上下文嵌入法(BERT)都能编码某些惯用信息，但在向量范数是否编码成语性的问题上存在矛盾现象，同时也指出了数据集的一些局限性和未来工作的方向。

Apr, 2023

使用对比集的大型语言模型评估：一种实验方法

在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用ELECTRA-small模型进行分析，模型在常规的自然语言推理数据集上达到89.9%的准确率，但在对比集上准确率降低到了72.5%，下降了17%。由此结果导致我们对模型的学习行为进行了详细考察，然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调，将其准确率提升到了85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性，希望能促进创建更包容的数据集，从而推动更为复杂和有效的自然语言推理模型的发展。

Apr, 2024

成语处理中的质量、数量和语境：少即是多吗？

通过在公共领域图书文本中替换可能成语化的英语名词复合词的同义词，我们创建了名词复合同义词替换数据集，探讨了用于成语性检测模型训练时数据数量和质量之间的平衡，同时考虑了从周围句子中获取的上下文信息和从语言资源中获取的外部信息。成语性检测任务的性能表明数据集质量对于含有上下文信息的模型更为重要，但对于不包含上下文策略的模型，数量也起到一定作用。

May, 2024