使用适配器将 BERT 整合到并行序列解码中
本文提出了一种简单而有效的适配器方法来提高预训练模型在下游任务的稳定性和抗攻击性。该方法为预训练模型的每层插入小型的瓶颈层,然后在下游任务数据上固定预训练层并训练适配器层,通过在任务特定的无监督训练和监督训练 (e.g., 分类、序列标注) 的过程中,提高了转移学习的性能。
Aug, 2021
提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
Jan, 2024
本研究通过将定制和合适的双语预训练语言模型(称为 BiBERT)的输出(上下文嵌入)作为神经机器翻译编码器的输入,展示了实现最先进的翻译性能的方法,并提出了一种随机层选择方法和双向翻译模型的概念,以确保充分利用上下文嵌入。
Sep, 2021
本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法,并通过对多个数据集的实验验证,证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型,并且接近于左到右的变换器模型。
Apr, 2019
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023
本研究提出一种新型基于 Transformer 的 M-Adapter 方法,通过建模语音序列的全局和局部依赖关系,将语音表示特征适应到文字输入上,以缩小语音输出和文字输入之间的模态差距,从而提高端到端语音到文本翻译的质量,并在 Must-C En→DE 数据集上获得比强基准模型高达 1 BLEU 得分的表现。
Jul, 2022
提出了 Big Little Decoder (BiLD) 框架来提高文本生成的推理效率和延迟,通过两个不同大小的模型协同生成文本。在各种文本生成情景下应用 BiLD,如机器翻译、摘要生成和语言建模,在 NVIDIA Titan Xp GPU 上实现高达 2.38 倍的加速且不对性能造成显著的损失。
Feb, 2023
本文为多语言语音翻译(ST)提供了适配器的完整分析,其中适配器调整在 NLP 中作为微调的高效替代品,可使 ST 针对特定语言对进行专门优化,并从自动语音识别(ASR)任务和预先训练的 mBART 模型中进行转移,同时节省大量参数,具有与完全微调相当的可比结果。
Jun, 2021
本文提出了 Graformer 模型,将预训练的 BERT 和 GPT 结合起来,分别作为编码器和解码器用于机器翻译,得到了比同等规模的多语言 Transformer 更好的翻译结果。
Sep, 2021
本文提出了一种基于预训练的编码器 - 解码器框架,使用 BERT 编码输入序列来生成输出序列,采用 Transformer-based 解码器生成草稿输出序列,并将其与原始输入序列结合使用,使用 BERT 生成的草稿表示来预测遮罩位置的优化单词,进而在文本摘要任务上实现了最新的技术水平。
Feb, 2019