神经机器翻译的高效推断

Oct, 2020

Efficient Inference For Neural Machine Translation

Yi-Te Hsu, Sarthak Garg, Yi-Hsiu Liao, Ilya Chatsviorkin

TL;DR该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Abstract

Large transformer models have achieved state-of-the-art results in neural machine translation and have become standard in the field. In this work, we look for the optimal combination of known techniques to optimi

transformer models machine translation neural networks inference optimization attention pruning

发现论文，激发创造

多语言神经机器翻译的高效推理

本论文研究了如何通过采用轻量级解码器和词汇筛选来加速多语言神经机器翻译的推理速度，而不影响翻译质量，使用 BLEU 和 chrF 进行实验验证，并进行了健壮性评估和人类评估。

Sep, 2021

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

神经机器翻译中基于 Transformer 的异构编码器扩展

通过多种异构方法的整合，设计了多编码器 Transformer，以提高翻译质量，特别对于低资源语言表现出最大 7.16 BLEU 的提升。

Dec, 2023

神经机器翻译的深度架构

本文介绍和评估了引入深度的机器翻译模型的若干现有方法和新型架构，包括深转移 RNN 和不同深度解码时注意力的使用方式。实验结果表明，BiDeep RNN 架构的组合深度为 8 时在速度和翻译质量方面均有显著提高，相比强浅层基线的平均提高 1.5 BLEU。

Jul, 2017

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

立方体修剪加速神经机器翻译解码

本文利用立方剪枝技术，构建目标语言等价类和减少 RNN 展开所需并行操作和 softmax 运算，以提高神经机器翻译的翻译速度，同时保证翻译质量，在 GPU 上快了约 3.3 倍，在 CPU 上快了约 3.5 倍。

Sep, 2018

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024