Jan, 2022

从干净的爬取语料开始 —— 打造优秀语言模型的秘诀

TL;DR本文介绍了利用冰岛语通用爬虫语料库进行训练的几种语言模型,包括 IceBERT,这些模型在诸多下游任务中均达到了最优表现。通过这些努力,我们证明了经过适当清理的网络爬虫语料库足以实现自然语言处理应用的最佳效果,并且说明使用现有的多语言模型初始化可以在某些下游任务中达到最先进的结果。