IndicBART：用于 Indic 自然语言生成的预训练模型

ACLSep, 2021

IndicBART：用于 Indic 自然语言生成的预训练模型

IndicBART: A Pre-trained Model for Indic Natural Language Generation

Raj Dabre, Himani Shrotriya, Anoop Kunchukuttan, Ratish Puduppully, Mitesh M. Khapra...

TL;DR本文探讨了预训练的序列到序列模型在相关语言群中的应用，关注印欧语言。我们介绍了 IndicBART - 一种针对 11 种印欧语言和英语的多语言序列到序列预训练模型。通过利用印欧语言之间的拼写相似性，IndicBART 在类似印欧语言之间进行转移学习，获得了不错的性能表现。研究表明，即使相对较小的 IndicBART 模型在机器翻译和极端摘要等任务上也具有与大型预训练模型相媲美的性能，甚至在很低资源的情况下依然表现优异。模型参数共享，多语言训练等技术有助于提高 IndicBART 模型的性能水平。

Abstract

In this paper, we study pre-trained sequence-to-sequence models for a group of related languages, with a focus on indic languages. We present ind

pre-trained models sequence-to-sequence indicbart indic languages multilingual training

发现论文，激发创造

GreekBART：第一个预训练的希腊序列到序列模型

本篇论文介绍了 GreekBART，这是第一个基于 BART-base 架构的 Seq2Seq 模型，经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现，并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。

Apr, 2023

使用多语言变压器模型对印度语言进行摘要

本研究采用 IndicBART 和 mT5 模型，研究它们在印度语言数据集上的摘要性能，结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。

Mar, 2023

预训练的多语言序列到序列模型：底资源语言翻译的希望？

通过在 10 种语言上进行完备实验，考虑了五个因素：（1）微调数据量，（2）微调数据中的噪声，（3）模型预训练数据量，（4）领域不匹配的影响以及（5）语言类型学，我们试图确定预训练多语言序列到序列模型（如 mBART）对翻译低资源语言有何贡献，并提出了许多启发式方法。实验结果显示，mBART 对领域差异具有鲁棒性，但对未知和语言类型学差异较大的语言的翻译仍低于 3.0 BLEU。因此，我们鼓励将重点从新模型转向新数据。

Mar, 2022

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

AraBART：用于抽象化摘要的预训练阿拉伯语序列到序列模型

本文介绍了 AraBART，这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型，通过在多个抽象摘要数据集上的测试，显示 AraBART 在摘要生成方面具有较好的性能，超过了类似的基线模型。

Mar, 2022

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

ZmBART：一种用于语言生成的无监督跨语言转移框架

本文针对自然语言生成中跨语言转移的研究相对匮乏，介绍了一种无监督的跨语言语言生成框架 ZmBART，使用少量高资源语言数据进行监督学习，并通过预训练的方式，利用三种语言的单语数据来进行无监督学习，最终在多种低资源语言上获得了较好的性能。

Jun, 2021

BARThez: 一种熟练的预先训练的法语序列到序列模型

本研究介绍了 BARThez，这是首个大规模的针对法语进行预训练的 seq2seq 模型，它在五个歧视性任务和两个生成性任务上表现非常有竞争力，并且在法语模型中超越了 CamemBERT 和 FlauBERT 等目前的最先进模型。我们还展示了将多语言 BART 在 BARThez 语料库上继续预训练的结果。

Oct, 2020

程序理解和生成的统一预训练

PLBART 是一个可进行广泛的程序和语言理解和生成任务的序列到序列模型，已在 Java 和 Python 函数和相关的自然语言文本上进行预训练，实验证明其在代码总结、生成和翻译方面表现优异，同时在程序理解方面也表现出色。

Mar, 2021