StreamAtt：基于注意力机制的音频历史选择的直接流式语音转写翻译

ACLJun, 2024

StreamAtt：基于注意力机制的音频历史选择的直接流式语音转写翻译

StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli

TL;DR实时的语音转文字翻译是具有挑战性的任务，文章提出了流式语音转文字翻译（StreamST）策略和流式语音转文字翻译延迟度量（StreamLAAL），并通过实验证明了其在实时语音翻译领域的有效性。

Abstract

streaming speech-to-text translation (streamst) is the task of automatically translating speech while incrementally receiving an audio stream. Unlike simultaneous ST (→

streaming speech-to-text translation streamst simulst streamatt streamlaal

发现论文，激发创造

使用基于注意力的音频 - 翻译对齐作为指南的同时语音翻译方法：AlignAtt

本研究提出了一种新的语音翻译策略 ——AlignAtt，利用注意力机制生成源 - 目标对齐，指导模型推断，实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略，并提高了 BLEU 分数和处理延迟降低。

May, 2023

流式语音：多任务学习与同时语音翻译

Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.

Jun, 2024

端到端同步语音翻译的最新进展

该论文提供了对 SimulST 研究的综合概述，着重讨论了四个主要挑战，包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨，旨在提供对 SimulST 研究当前现状的宝贵见解，并为未来的探索提出有希望的方向。

Jun, 2024

注意力作为同时语音翻译的指南

本文提出了一种基于注意力机制和编码器 - 解码器注意力进行实时推理的注意力策略，并在 en -> {de, es} 上进行了测试，结果表明与现有技术相比，该策略在计算感知延迟方面的性能要好得多。

Dec, 2022

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

DiariST: 带有说话者分离的流式语音译文

该论文提出了 DiariST，第一个基于神经传感器的流式语音翻译和说话人分离解决方案，它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量，通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方法，实现了较强的 ST 和 SD 能力，并为此推出了离线基线系统和评估代码。

Sep, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

通过利用流式历史将机器翻译从同时转换为流式转换

该研究拓展了现有的同声翻译系统，提出一种基于流历史的流机器翻译方法，取得了较大的质量提升，并且表现优于现有同类最佳系统。

Mar, 2022

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020