隐式记忆变换器：面向计算效率的同声传译模型

ACLJul, 2023

隐式记忆变换器：面向计算效率的同声传译模型

Implicit Memory Transformer for Computationally Efficient Simultaneous Speech Translation

Matthew Raffel, Lizhong Chen

TL;DR本文提出了一种采用隐式内存推理机制的新型左上下文方法的隐式存储变形器，以提高流式翻译的速度和性能，并在 MuST-C 数据集上进行实验以证明该方法优于现有方法。

Abstract

simultaneous speech translation is an essential communication task difficult for humans whereby a translation is generated concurrently with oncoming speech inputs. For such a streaming task, transformers using b

simultaneous speech translation transformers implicit memory transformer left context must-c dataset

发现论文，激发创造

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

可移动上下文：解决同声传译中的训练推理上下文不匹配问题

提出了可移位上下文（Shiftable Context）方案，旨在保持训练和推断环境中段和上下文大小的一致性，即使存在由于同时翻译的流媒体特性而导致部分填充的段。在 MUST-C 数据集的三种语言对中，模型的 BLEU 得分显著提高。

Jul, 2023

面向口语理解和同时语音翻译的分块流式 Transformer

本研究提出基于块状，流式 Transformer 的方法，通过流式处理和块状并行检索，在同时进行自然语言理解和语音翻译等多个语音处理任务中，实现实时处理并取得与离线模型相当甚至更高的性能表现，并通过引入自动语音识别中间层损失约束和跨语言编码方法等方式进一步提高分类性能和模型表现。

Apr, 2022

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Mar, 2022

通过利用流式历史将机器翻译从同时转换为流式转换

该研究拓展了现有的同声翻译系统，提出一种基于流历史的流机器翻译方法，取得了较大的质量提升，并且表现优于现有同类最佳系统。

Mar, 2022

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

利用视觉上下文的同时机器翻译

本文旨在研究如何利用视觉信息来弥补缺失的源文本背景，评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明，视觉背景是有帮助的，基于明确的物体区域信息的可视化模型优于常用的全局特征，在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示，只有多模态系统才能正常翻译英语到标记性别的语言，并处理英语和法语之间的形容词和名词词序等差异。

Sep, 2020

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023