EMNLPOct, 2022

大规模近义语获取与生成的改进

TL;DR本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个大型自动构建的训练集,用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义,最好的预训练语言模型在我们的数据集上进行微调,达到了 84.2 F1 的最先进性能;此外,我们的实证结果还表明,使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比,可以生成更多样化且高质量的同义改述。