Jun, 2024

谎言的集袋:BERT 在持续预训练中的鲁棒性

TL;DR研究利用 COVID-19 作为案例,探讨 BERT 的持续预训练阶段,尤其是实体知识的获取。结果表明,持续预训练使得 BERT 对 COVID-19 具有一定的实体知识。在使用事实核查基准 Check-COVID 测试连续预训练的鲁棒性时,我们发现恶意训练和词序乱序等故意篡改数据的方法并没有降低模型的下游性能,甚至有时还能改善,这表明 BERT 的持续预训练对于恶意信息具有一定的鲁棒性。此外,我们还发布了一个新数据集,包括 LitCovid 仓库中的原始文本和 AI 生成的错误对应文本。