EMNLPSep, 2021
预训练语言模型中习语的探索数据集和方法
AStitchInLanguageModels: Dataset and Methods for the Exploration of Idiomaticity in Pre-Trained Language Models
Harish Tayyar Madabushi, Edward Gow-Smith, Carolina Scarton, Aline Villavicencio
TL;DR本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集,用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果,并且发现 fine-tuning 是学习包含 MWE 的句子表示的一种有效的样本高效方法。