AlexaTM 20B: 使用大规模多语言 Seq2Seq 模型进行小样本学习

Aug, 2022

AlexaTM 20B: 使用大规模多语言 Seq2Seq 模型进行小样本学习

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza...

TL;DR本研究旨在探究多语言大规模序列到序列模型 (seq2seq)，其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型，对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型（ AlexaTM 20B）后，发现它在一次性概述任务和机器翻译任务上的性能比一个 540B 的 PaLM 解码器模型更好，并且特别适用于低资源语言。AlexaTM 20B 还可以在零次见示下，胜过 GPT3 (175B) 并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务中提供最先进的性能。总的来说，我们的研究结果表明，seq2seq 模型是一个强大的替代解码器模型的大规模语言模型 (LLM) 的选择。

Abstract

In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20

multilingual models seq2seq few-shot learning summarization machine translation

发现论文，激发创造

多语言语言模型的少样本学习

本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力，实验结果表明，通过多语言提示方案，在许多任务中，模型可以在少量示例和无样本学习中完成良好的表现。

Dec, 2021

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

GeMQuAD：使用少量示例学习从大型语言模型中生成多语言问答数据集

通过使用 In-Context Learning (ICL) 与 GeMQuAD 半监督学习方法，本研究旨在利用 Large Language Models (LLMs) 生成的数据优化模型表现，特别适用于低资源多语言环境下的提取性问答任务，与传统的机器翻译增强模型相比，此方法在多语言数据集上获得了更佳的 F1/EM 表现。

Apr, 2024

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022

序列到序列的西班牙语预训练语言模型

本文介绍了在西班牙语语料库上预训练的著名编码器 - 解码器架构 ——BART、T5 和 BERT2BERT 风格模型。通过对各种序列到序列任务（包括摘要、改写和生成式问答）的综合评估，我们发现所有模型的性能竞争力，其中 BART 和 T5 在所有评估任务中表现最好。此外，我们还将所有模型公开提供给研究社区，促进西班牙语语言处理领域的未来探索和发展。

Sep, 2023

用于资源较少的斯洛文尼亚语的序列到序列预训练

该研究针对资源较少的斯洛文尼亚语，训练了两个不同尺寸的 T5 类型序列到序列模型，并分析其在 11 个任务中的表现，结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型，但在生成性任务上很有用。

Jul, 2022

神经网络序列到序列学习

本文提出了一种基于深度神经网络（DNN）的序列学习方法，使用多层长短时记忆（LSTM）解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果，同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。

Sep, 2014

减少先验知识、增加单语数据的自然语言代码生成

通过利用较大的单语语料库，本研究调查了一个基于通用 transformer 的 seq2seq 模型是否可以在最小限度的代码生成特定归纳偏差下实现与其他语言模型相当的性能，结果显示其在 Django 上实现了 81.03％的完全匹配准确性和 32.57 的 CoNaLa BLEU 分数，均达到了我们所知道的最好水平，这为在实践中构建准确的语义解析器提供了可能更容易的途径。

Jan, 2021

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

序列到序列混合模型用于多样化机器翻译

研究开发了一种新的序列混合模型，通过采用一组专业翻译模型而非单个模型来提高翻译的多样性和质量，并在四种语言对上进行了实验。

Oct, 2018