Cabrita：弥合外语鸿沟

Aug, 2023

Cabrita: closing the gap for foreign languages

Celio Larcher, Marcos Piau, Paulo Finardi, Pedro Gengo, Piero Esposito...

TL;DR通过使用 Portuguese 文本对 3-billion-parameter 模型进行连续预训练，本研究提出了一种名为 Cabrita 的方法，成功解决了性能和高效标记化问题，并以可负担得起的成本实现。

Abstract

The strategy of training the model from scratch in a specific language or domain serves two essential purposes: i) enhancing performance i

training model performance tokenization cabrita

发现论文，激发创造

Sabiá：葡萄牙语大语言模型

在这篇论文中，我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型，并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明，从单语预训练获得的大多数收益来自于领域特定知识。

Apr, 2023

Juru：来自可靠来源的巴西合法大型语言模型

通过领域专门化和高质量数据预训练，我们研究了大语言模型的高计算成本问题，发现领域专门化可以降低预训练数据量，但会牺牲同一语言中其他知识领域的性能。这一研究有助于证明预训练数据的选择可以提升大语言模型的性能，从而降低研究成本。

Mar, 2024

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

CamemBERT: 一种美味的法语语言模型

本研究通过利用网络爬虫数据构建法语单语语料库，研究了训练法语单语 Transformer-based 语言模型的可行性，并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。

Nov, 2019

DeBERTinha: 适应巴西葡萄牙语自然语言处理任务的多步骤方法

这篇论文介绍了一种将英语预训练的 DebertaV3 XSmall 模型适应于巴西葡萄牙语自然语言处理任务的方法。该方法的关键是多步骤训练过程，以确保模型在葡萄牙语方面得到有效调整。通过对来自 Carolina 和 BrWac 的初始数据集进行预处理，解决了表情符号、HTML 标签和编码等问题。使用 SentencePiece 创建了一个包含 50,000 个令牌的葡萄牙语特定词汇表。模型使用预训练的英语模型的权重初始化大部分网络，通过随机嵌入来减少从头训练的昂贵成本。通过在 DebertaV3 训练的相同格式中使用替换令牌检测任务对模型进行微调。改进后的模型称为 DeBERTinha，在命名实体识别、情感分析和句子相关性确定等下游任务中表现出色，在两个任务中超过 BERTimbau-Large，尽管其参数只有 40M。

Sep, 2023

多语种模型是否是中度资源语言的最佳选择？以加泰罗尼亚语为例的全面评估

本研究集中关注在 Catalan 语言，通过构建一个中等大小的单语言模型并进行完整的评估，成功地通过多样的任务比较，充分证明了其优越性，从而证实了在数据充足的情况下，单语言特定模型的效果能够超越多语言模型。

Jul, 2021

KR-BERT：小规模韩语特定语言模型

本论文旨在训练适用于韩语的小型语言模型 KR-BERT，通过采用较小的词汇表和数据集、优化令牌化方法，提高了韩语语言现象的捕捉效率，实现了与大型语言模型相媲美甚至更优的性能。

Aug, 2020

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型，同时比 BERT BASE 小 3.3 倍，快 5.1 倍。

Jun, 2021

PeLLE: 基于开放数据的巴西葡萄牙语编码器语言模型

该论文介绍了基于 RoBERTa 架构的 PeLLE 模型系列，用于巴西葡萄牙语，使用来自 Carolina 语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节，通过对比大型与精选预训练模型在多个下游任务中的性能，我们评估了 PeLLE 模型。我们得出结论，更大的模型在一些任务中表现更好，但一些任务从使用精选的数据进行预训练中受益。

Feb, 2024