StreamAtt:基于注意力机制的音频历史选择的直接流式语音转写翻译
本研究提出了一种新的语音翻译策略 ——AlignAtt,利用注意力机制生成源 - 目标对齐,指导模型推断,实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略,并提高了 BLEU 分数和处理延迟降低。
May, 2023
Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.
Jun, 2024
该论文提供了对 SimulST 研究的综合概述,着重讨论了四个主要挑战,包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨,旨在提供对 SimulST 研究当前现状的宝贵见解,并为未来的探索提出有希望的方向。
Jun, 2024
本文提出了一种基于注意力机制和编码器 - 解码器注意力进行实时推理的注意力策略,并在 en -> {de, es} 上进行了测试,结果表明与现有技术相比,该策略在计算感知延迟方面的性能要好得多。
Dec, 2022
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
该论文提出了 DiariST,第一个基于神经传感器的流式语音翻译和说话人分离解决方案,它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量,通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方法,实现了较强的 ST 和 SD 能力,并为此推出了离线基线系统和评估代码。
Sep, 2023
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020