Apr, 2022

PLOD:科学文档中的缩写检测数据集

TL;DR本文介绍了一个大规模的缩略语检测和提取数据集 PLOD,其中包含超过 160k 个被缩略语和长格式自动注释的文本部分,并使用该数据集生成了多个基线模型用于检测缩写词和长格式。最佳模型检测缩写词的 F1 得分为 0.92,检测其相应的长格式得分为 0.89。