EMNLPOct, 2020
预训练数据的成本效益选择:在社交媒体上预训练 BERT 的案例研究
Cost-effective Selection of Pretraining Data: A Case Study of Pretraining BERT on Social Media
Xiang Dai, Sarvnaz Karimi, Ben Hachey, Cecile Paris
TL;DR本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。