Feb, 2024
PeLLE: 基于开放数据的巴西葡萄牙语编码器语言模型
PeLLE: Encoder-based language models for Brazilian Portuguese based on
open data
Guilherme Lamartine de Mello, Marcelo Finger, and Felipe Serras, Miguel de Mello Carpi, Marcos Menon Jose...
TL;DR该论文介绍了基于RoBERTa架构的PeLLE模型系列,用于巴西葡萄牙语,使用来自Carolina语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节,通过对比大型与精选预训练模型在多个下游任务中的性能,我们评估了PeLLE模型。我们得出结论,更大的模型在一些任务中表现更好,但一些任务从使用精选的数据进行预训练中受益。