使用适配器将 BERT 整合到并行序列解码中

Oct, 2020

使用适配器将 BERT 整合到并行序列解码中

Incorporating BERT into Parallel Sequence Decoding with Adapters

Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen...

TL;DR本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题，并在神经机器翻译任务上验证了该方法的有效性。

Abstract

While large scale pre-trained language models such as BERT have achieved great success on various natural language understanding tasks, how to efficiently and effectively incorporate them into sequence-to-sequence models and the corresponding →

bert models fine-tuning sequence-to-sequence models text generation tasks neural machine translation

发现论文，激发创造

透过 Adapter 实现基于预训练语言模型的强大迁移学习

本文提出了一种简单而有效的适配器方法来提高预训练模型在下游任务的稳定性和抗攻击性。该方法为预训练模型的每层插入小型的瓶颈层，然后在下游任务数据上固定预训练层并训练适配器层，通过在任务特定的无监督训练和监督训练 (e.g., 分类、序列标注) 的过程中，提高了转移学习的性能。

Aug, 2021

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

提出了多个增强的解码器设计，并引入了 DrBERT（经过解码器优化的 BERT）作为一种新方法进行模型训练，通过微调对原始 BERT 模型的解码器进行改进，有效提高了模型性能而不增加推理时间和资源使用。

Jan, 2024

BERT、mBERT 还是 BiBERT？关于上下文化嵌入用于神经机器翻译的研究

本研究通过将定制和合适的双语预训练语言模型（称为 BiBERT）的输出（上下文嵌入）作为神经机器翻译编码器的输入，展示了实现最先进的翻译性能的方法，并提出了一种随机层选择方法和双向翻译模型的概念，以确保充分利用上下文嵌入。

Sep, 2021

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

通过并行解码加速 Transformer 推理以进行翻译

本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构，以解决 transformers 对机器翻译的效率问题，实现了速度提高，而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试，速度提升最多可达 38％，在并行资源上实现的速度几乎达到 2 倍。同时，为了更好地理解模型的条件依赖关系和检查解码过程，提出了解码依赖图可视化器（DDGviz）

May, 2023

M 适配器：端到端语音到文本翻译的语言形式适应

本研究提出一种新型基于 Transformer 的 M-Adapter 方法，通过建模语音序列的全局和局部依赖关系，将语音表示特征适应到文字输入上，以缩小语音输出和文字输入之间的模态差距，从而提高端到端语音到文本翻译的质量，并在 Must-C En→DE 数据集上获得比强基准模型高达 1 BLEU 得分的表现。

Jul, 2022

大小变压器解码器

提出了 Big Little Decoder (BiLD) 框架来提高文本生成的推理效率和延迟，通过两个不同大小的模型协同生成文本。在各种文本生成情景下应用 BiLD，如机器翻译、摘要生成和语言建模，在 NVIDIA Titan Xp GPU 上实现高达 2.38 倍的加速且不对性能造成显著的损失。

Feb, 2023

轻量级适配器调整用于多语言语音翻译

本文为多语言语音翻译（ST）提供了适配器的完整分析，其中适配器调整在 NLP 中作为微调的高效替代品，可使 ST 针对特定语言对进行专门优化，并从自动语音识别（ASR）任务和预先训练的 mBART 模型中进行转移，同时节省大量参数，具有与完全微调相当的可比结果。

Jun, 2021

利用预训练语言模型嫁接的多语言翻译

本文提出了 Graformer 模型，将预训练的 BERT 和 GPT 结合起来，分别作为编码器和解码器用于机器翻译，得到了比同等规模的多语言 Transformer 更好的翻译结果。

Sep, 2021

基于预训练的自然语言生成用于文本摘要

本文提出了一种基于预训练的编码器 - 解码器框架，使用 BERT 编码输入序列来生成输出序列，采用 Transformer-based 解码器生成草稿输出序列，并将其与原始输入序列结合使用，使用 BERT 生成的草稿表示来预测遮罩位置的优化单词，进而在文本摘要任务上实现了最新的技术水平。

Feb, 2019