在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。
Oct, 2020
本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响,结果表明:在预训练期间将多项任务结合进行语言建模,特别是机器翻译等目标任务,可以明显提高其在多语种和跨语种任务中的性能,但随着模型容量的增加,收益开始减少,这表明平行数据对较大的模型来说可能并不那么重要;同时,在有限的标记数据环境中,即使在较大的模型尺寸下,使用平行数据进行预训练仍然具有优势。
Jun, 2021
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021
本文研究了预训练语言模型在领域任务泛化能力方面的能力,发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色,优于从头开始训练模型,并指出预训练嵌入在输入层非常重要。
Jun, 2023
本研究探讨了数据生成文本任务中的预训练和微调策略,实验表明,以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术,如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力,此研究希望成为未来研究的有益基础,随着转移学习在数据生成文本任务中的广泛应用。
May, 2020
针对 fine-tuning 预训练语言模型后其跨语言能力减弱的问题,该研究提出了一种利用 continual learning 来保持其原有跨语言能力的方法,并在句子检索、跨语言词性标注和命名实体识别等任务中达到更好的性能。
Apr, 2020
本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言,通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务,结果表明我们的方法能够持续提高翻译性能。
May, 2021
本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型,并且证明在不失性能的前提下,预训练模型可以扩展到更多语言。此外,作者基于 ML50 数据集表明,多语言微调相较于其他训练方式有显著提升。
Aug, 2020
引入了 IT5 模型,这是首个在意大利语上进行预训练的编码器 - 解码器 Transformer 模型家族,研究表明,它在大多数条件语言生成任务中表现出比其多语种对应物更好的性能。
Mar, 2022