学习何时发声：离线模型下同时语音翻译中的延迟和质量权衡

Jun, 2023

学习何时发声：离线模型下同时语音翻译中的延迟和质量权衡

Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

PDF

Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire...

TL;DR本文提出了一种面向实际应用场景的实时语音翻译系统 SimulS2ST，支持 57 种语言对英语的翻译，具备实时调节输出延迟的功能，能够非常快速地进行语音翻译。

Abstract

Recent work in speech-to-speech translation (S2ST) has focused primarily on offline settings, where the full input utterance is available before any output is given. This, however, is not reasonable in many real-world scenarios. In →

speech-to-speech translation real-time translation simultaneous translation natural language processing latency-sensitive applications

发现论文，激发创造

同声传译是否需要同时模型？

本文研究如何在同时翻译中平衡高翻译质量和低延迟之间的权衡，并探讨通过训练单个离线模型来解决多个同时翻译模型维护造成的高计算成本的问题。研究结果表明，离线模型实现了与同时训练模型相似或更好的翻译质量，并且具有更低的延迟和更高的可扩展性。

Apr, 2022

流式语音：多任务学习与同时语音翻译

Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.

Jun, 2024

自适应训练的流畅低延迟语音同传翻译

提出了一种名为 Self-Adaptive Translation (SAT) 的方法，实现同时语音翻译。该方法通过灵活调整翻译的长度，以适应不同的源语音速率，从而在保持近似的翻译质量的前提下，显著降低了延迟，生成了更流畅自然的目标语音。

Oct, 2020

使用同声传译数据进行标记的端到端同声传译训练

本文介绍了一种使用混合数据来训练 SimulST 模型的有效方法，该方法使用了同声传译的数据和离线的双语数据，以及风格标签来指示模型生成同声传译或离线风格的输出。实验结果表明在不同的延迟范围内 BLEURT 有所改善，并且分析结果表明该模型比基准模型生成了更多的同声传译风格的输出。

Jun, 2023

从 SimulMT 到 SimulST: 将同时翻译文本转换为端到端同时翻译语音

本文调查了如何将同步文本翻译方法与同时语音翻译相结合，并通过引入预决定模块来适应于端到端的同时语音翻译。同时，对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法，该方法从平均滞后进行调整。

Nov, 2020

端到端同步语音翻译的最新进展

该论文提供了对 SimulST 研究的综合概述，着重讨论了四个主要挑战，包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨，旨在提供对 SimulST 研究当前现状的宝贵见解，并为未来的探索提出有希望的方向。

Jun, 2024

IWSLT 2022 年同声传译任务 CUNI-KIT 系统

本文介绍了我们在 IWSLT 2022 Simultaneous Speech Translation 比赛中的参赛作品，探讨了如何在不修改原始模型的情况下，在同步设置中利用离线模型的策略。在实验中，我们展示了我们的在线算法几乎与离线设置相等，而在测试集上的延迟方面比离线快 3 倍。我们还展示了在线化的离线模型在中高延迟区间比最佳 IWSLT2021 同声翻译系统表现更好，在低延迟区间则几乎持平。我们的系统已经公开发布。

Apr, 2022

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

多语言同声传译

研究了一种在会议或会谈中进行同时语音翻译的应用程序，并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明，相似的潜在优势。

Mar, 2022