序列到序列的西班牙语预训练语言模型
本文提供了一份全面的研究报告,比较了用于西班牙语的语言模型,报告显示:先前被忽略的大型跨语言模型比单语模型表现更好,单语模型的结果并不是确定性的,需要进一步研究语料库大小、质量和预训练技术等因素。
Dec, 2022
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
该研究针对资源较少的斯洛文尼亚语,训练了两个不同尺寸的 T5 类型序列到序列模型,并分析其在 11 个任务中的表现,结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型,但在生成性任务上很有用。
Jul, 2022
该研究提出了一种基于 BERT 的专门针对西班牙语数据进行预训练的语言模型,并收集了几个专门针对西班牙语的任务,通过对预训练模型进行微调,在大多数任务上取得了比其他基于 BERT 的多语种预训练模型更好的结果,并在其中一些任务上取得了新的最优成果。
Aug, 2023
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023
使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言,从而提高希伯来语自然语言处理,与以往的编码器结构的预训练模型相比,取得了显著改善。
Dec, 2022
本文提出了一种基于预训练的编码器 - 解码器框架,使用 BERT 编码输入序列来生成输出序列,采用 Transformer-based 解码器生成草稿输出序列,并将其与原始输入序列结合使用,使用 BERT 生成的草稿表示来预测遮罩位置的优化单词,进而在文本摘要任务上实现了最新的技术水平。
Feb, 2019
BART 是一种预训练序列到序列模型的去噪自编码器,通过使用 Transformer 架构,并使用一些创新方法,如随机调换原始数据序列的顺序和填充原始数据中的实体,使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色,超越了 RoBERTa,并提供了 1.1 个 BLEU 的机器翻译增量。
Oct, 2019
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
本研究旨在探究多语言大规模序列到序列模型 (seq2seq),其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型,对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型( AlexaTM 20B)后,发现它在一次性概述任务和机器翻译任务上的性能比一个 540B 的 PaLM 解码器模型更好,并且特别适用于低资源语言。AlexaTM 20B 还可以在零次见示下,胜过 GPT3 (175B) 并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务中提供最先进的性能。总的来说,我们的研究结果表明,seq2seq 模型是一个强大的替代解码器模型的大规模语言模型 (LLM) 的选择。
Aug, 2022