利用预训练语言模型嫁接的多语言翻译
本研究旨在通过探究多种单语和跨语言表示学习方法,如掩码语言建模,翻译语言建模和双编码器翻译排名等,结合预训练的多语言模型来学习多语言句子嵌入,并成功将其用于多语言文本检索和机器翻译任务中。
Jul, 2020
本文提出了一种预训练的字形模型 GBERT,通过两种方法将其融合到基于 Transformer 的 G2P 模型中,实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。
Jan, 2022
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
Apr, 2024
本文提出了一种新方法,将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上,并通过跨模态和内模态关系的一致性融合机制集成不同组件,以实现多模标题的生成。经过实验证明,嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。
Nov, 2022
本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型(multilingual Seq2Seq PLMs) 的性能的方法,实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART,可以缩小跨语言句子表示的欧几里得距离,并且在计算成本方面没有太多的增加。
Apr, 2022
本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题,并在神经机器翻译任务上验证了该方法的有效性。
Oct, 2020
该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果,该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果,并在低资源设置中表现出非常有效的结果。
Oct, 2022
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
新颖的跨语言转移学习方法 - 从单语言模型到新语言,通过学习一个新的词嵌入矩阵来实现,该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。
Oct, 2019