Sep, 2023

DeBERTinha: 适应巴西葡萄牙语自然语言处理任务的多步骤方法

TL;DR这篇论文介绍了一种将英语预训练的 DebertaV3 XSmall 模型适应于巴西葡萄牙语自然语言处理任务的方法。该方法的关键是多步骤训练过程,以确保模型在葡萄牙语方面得到有效调整。通过对来自 Carolina 和 BrWac 的初始数据集进行预处理,解决了表情符号、HTML 标签和编码等问题。使用 SentencePiece 创建了一个包含 50,000 个令牌的葡萄牙语特定词汇表。模型使用预训练的英语模型的权重初始化大部分网络,通过随机嵌入来减少从头训练的昂贵成本。通过在 DebertaV3 训练的相同格式中使用替换令牌检测任务对模型进行微调。改进后的模型称为 DeBERTinha,在命名实体识别、情感分析和句子相关性确定等下游任务中表现出色,在两个任务中超过 BERTimbau-Large,尽管其参数只有 40M。