EMNLPOct, 2020

预训练数据的成本效益选择:在社交媒体上预训练 BERT 的案例研究

TL;DR本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。