Apr, 2021

潜在习语表达(PIE)英语:习语类语料库

TL;DR本文提供一个大规模的,用于英语自然语言处理的潜在成语表达(Potential Idiomatic Expression,PIE)数据集,其中包括超过 1,200 种逾二十一万个语料库样例,涵盖了十类(或意义)成语及其词义,提供了基准和比较三种常见的模型(包括 BERT 模型)的分类实验,该数据集可扩展,可用于各种 NLP 任务。