Apr, 2020

预训练语言模型的廉价领域自适应:生物医学实体识别和 Covid-19 问答的案例研究

TL;DR本文介绍了基于目标域文本的 Word2Vec 的训练和对齐策略,用于适应已有的预训练语言模型,并在生物医学实体识别任务和 Covid-19 问答任务上取得了 60% 的 BioBERT-BERT F1 差距的覆盖率,且成本仅相当于 BioBERT 的 5% 的 CO2 排放和 2% 的云计算成本。