Cabrita:弥合外语鸿沟
在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
通过领域专门化和高质量数据预训练,我们研究了大语言模型的高计算成本问题,发现领域专门化可以降低预训练数据量,但会牺牲同一语言中其他知识领域的性能。这一研究有助于证明预训练数据的选择可以提升大语言模型的性能,从而降低研究成本。
Mar, 2024
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
Nov, 2019
这篇论文介绍了一种将英语预训练的 DebertaV3 XSmall 模型适应于巴西葡萄牙语自然语言处理任务的方法。该方法的关键是多步骤训练过程,以确保模型在葡萄牙语方面得到有效调整。通过对来自 Carolina 和 BrWac 的初始数据集进行预处理,解决了表情符号、HTML 标签和编码等问题。使用 SentencePiece 创建了一个包含 50,000 个令牌的葡萄牙语特定词汇表。模型使用预训练的英语模型的权重初始化大部分网络,通过随机嵌入来减少从头训练的昂贵成本。通过在 DebertaV3 训练的相同格式中使用替换令牌检测任务对模型进行微调。改进后的模型称为 DeBERTinha,在命名实体识别、情感分析和句子相关性确定等下游任务中表现出色,在两个任务中超过 BERTimbau-Large,尽管其参数只有 40M。
Sep, 2023
本研究集中关注在 Catalan 语言,通过构建一个中等大小的单语言模型并进行完整的评估,成功地通过多样的任务比较,充分证明了其优越性,从而证实了在数据充足的情况下,单语言特定模型的效果能够超越多语言模型。
Jul, 2021
本论文旨在训练适用于韩语的小型语言模型 KR-BERT,通过采用较小的词汇表和数据集、优化令牌化方法,提高了韩语语言现象的捕捉效率,实现了与大型语言模型相媲美甚至更优的性能。
Aug, 2020
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
该论文介绍了基于 RoBERTa 架构的 PeLLE 模型系列,用于巴西葡萄牙语,使用来自 Carolina 语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节,通过对比大型与精选预训练模型在多个下游任务中的性能,我们评估了 PeLLE 模型。我们得出结论,更大的模型在一些任务中表现更好,但一些任务从使用精选的数据进行预训练中受益。
Feb, 2024