学习何时发声:离线模型下同时语音翻译中的延迟和质量权衡
本文研究如何在同时翻译中平衡高翻译质量和低延迟之间的权衡,并探讨通过训练单个离线模型来解决多个同时翻译模型维护造成的高计算成本的问题。研究结果表明,离线模型实现了与同时训练模型相似或更好的翻译质量,并且具有更低的延迟和更高的可扩展性。
Apr, 2022
Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.
Jun, 2024
提出了一种名为 Self-Adaptive Translation (SAT) 的方法,实现同时语音翻译。该方法通过灵活调整翻译的长度,以适应不同的源语音速率,从而在保持近似的翻译质量的前提下,显著降低了延迟,生成了更流畅自然的目标语音。
Oct, 2020
本文介绍了一种使用混合数据来训练 SimulST 模型的有效方法,该方法使用了同声传译的数据和离线的双语数据,以及风格标签来指示模型生成同声传译或离线风格的输出。实验结果表明在不同的延迟范围内 BLEURT 有所改善,并且分析结果表明该模型比基准模型生成了更多的同声传译风格的输出。
Jun, 2023
本文调查了如何将同步文本翻译方法与同时语音翻译相结合,并通过引入预决定模块来适应于端到端的同时语音翻译。同时,对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法,该方法从平均滞后进行调整。
Nov, 2020
该论文提供了对 SimulST 研究的综合概述,着重讨论了四个主要挑战,包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨,旨在提供对 SimulST 研究当前现状的宝贵见解,并为未来的探索提出有希望的方向。
Jun, 2024
本文介绍了我们在 IWSLT 2022 Simultaneous Speech Translation 比赛中的参赛作品,探讨了如何在不修改原始模型的情况下,在同步设置中利用离线模型的策略。在实验中,我们展示了我们的在线算法几乎与离线设置相等,而在测试集上的延迟方面比离线快 3 倍。我们还展示了在线化的离线模型在中高延迟区间比最佳 IWSLT2021 同声翻译系统表现更好,在低延迟区间则几乎持平。我们的系统已经公开发布。
Apr, 2022
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在优势。
Mar, 2022