MASS: 面向语言生成的遮掩序列到序列预训练

ICMLMay, 2019

MASS: 面向语言生成的遮掩序列到序列预训练

MASS: Masked Sequence to Sequence Pre-training for Language Generation

Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu

TL;DR该论文介绍了 MASS 作为一种在 encoder-decoder 架构下的自然语言生成前预训练方法，通过在随机遮掩的句子中构建代表性提取和语言建模能力，再在文本生成、翻译及会话生成等多个语言生成任务中进行进一步微调，以获得比其他无预训练模型和其他预训练方法更加出色的表现。

Abstract

pre-training and fine-tuning, e.g., BERT, have achieved great success in language understanding by transferring knowledge from rich-resource pre-

pre-training fine-tuning encoder-decoder language generation mass

发现论文，激发创造

神经机器翻译的通用条件掩码语言预训练

本文介绍了一种 CeMAT 方法，即一种在双语和单语语料库上进行预训练的条件掩码语言模型，其中包括双向解码器，通过该方法可以在低资源及高资源语言下分别提高 14.4 BLEU 和 7.9 BLEU 及能显著提高 Autoregressive NMT 的性能。此外，本文还首次在 NMT 任务上使用了统一预训练模型，并提供相关数据和模型。

Mar, 2022

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

多智能体决策的屏蔽预训练

提出了一种基于 Transformer 架构的 MaskMA 预训练框架，通过分布式执行和部分观察的方式，同时解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题，实验结果显示 MaskMA 在多个任务上都表现出色，包括 77.8％的零 - shot 胜率和有效的策略协作和临时团队游戏能力。

Oct, 2023

MASA: 带有语义对齐的运动感知遮挡自编码器用于手语识别

提出了一种结合丰富的动作线索和全局语义信息的运动感知遮蔽自编码器（MASA）框架，通过自我监督学习范式实现对手语的全面表示，实现了在四个公共基准测试上的最先进性能。

May, 2024

用于资源较少的斯洛文尼亚语的序列到序列预训练

该研究针对资源较少的斯洛文尼亚语，训练了两个不同尺寸的 T5 类型序列到序列模型，并分析其在 11 个任务中的表现，结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型，但在生成性任务上很有用。

Jul, 2022

句子编码器预训练的交叉思维

这篇论文提出了 Cross-Thought 方法用以预训练序列编码器，通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息，用于大规模自然语言处理任务，如问答，文本推断等，实验结果表明，所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀，并打破了 HotpotQA (full-wiki setting) 的最新记录，取得了新的最高水平的中间信息检索表现。

Oct, 2020

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

放弃您的解码器：使用词袋预测进行密集段落检索的预训练

通过使用增强解码的遮蔽自动编码器预训练，显著提高了稠密表示中输入标记的术语覆盖，从而实现了在大规模检索基准上的最先进的检索性能，无需任何额外参数，相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。

Jan, 2024