多单元 Transformer 用于神经机器翻译
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架,用于同时学习多个高级视觉任务,包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型,利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测,并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型,显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点,并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。
May, 2022
我们提出了一种 Semantic Units for Machine Translation (SU4MT) 方法,通过模型化句子中的语义单元,并利用它们来为理解句子提供新的视角。实验结果表明,我们的方法能有效地建模和利用语义单元级别的信息,并优于强基线模型。
Oct, 2023
本研究介绍了一种使用统一方法构建多语言神经机器翻译框架的方法,不需要对网络架构进行特殊处理,能在标准训练方式下学习最少数量的自由参数,在资源匮乏的翻译场景中表现出显著的效果,同时在源语言和目标语言之间没有直接平行语料库的翻译任务中也具有有趣和有前途的结果。
Nov, 2016
本文旨在讨论如何通过两阶段训练策略实现多语言神经机器翻译系统,以解决低效率的问题,并在 WMT'21 多语言翻译任务中进行实验验证,证明我们的系统在大多数方向上优于基线模型,并且不需要架构修改或额外数据收集。
Jun, 2022
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020
Multi-channel Encoder is proposed to improve Attention-based Encoder-Decoder architecture for neural machine translation by enhancing encoding components with different levels of composition, achieving a 6.52 BLEU point improvement on Chinese-English translation and BLEU=38.8 on the WMT14 English-French task.
Dec, 2017
本文提出了一种名为 Lego-MT 的多向分支神经机器翻译模型,通过局部化训练,将不同的分支映射到一个统一的空间中,达到高效、可分离的效果,并在收集的包含 7 个语言中心数据的大型开源翻译基准测试中,取得了超过 4 个 BLEU 的提升,优于 M2M-100 模型。
Dec, 2022
本文介绍了悉尼大学参加 WMT 2019 共享新闻翻译任务的提交。通过将学术研究中的最新的有效策略(例如,BPE、回译、多特征数据选择、数据增强、贪婪模型集成、reranking、ConMBR 系统组合和后处理)与自注意力 Transformer 网络相结合,提出了一种新的增强方法 Cycle Translation 和数据混合策略大 / 小并行构建,全面利用合成语料库。大量实验证明,添加上述技术可以使 BLEU 分数不断提高,最佳结果比基准线(使用原始平行语料库训练的 Transformer 集成模型)的 BLEU 分数高出约 5.3 个 BLEU 分,达到最先进的表现。
Jun, 2019
本文提出了一种基于不同语言单元(包括子词、单词和短语)之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer(UMST),实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现,且不影响效率。
Jun, 2022