长文同时语言翻译：论文提案

ACLOct, 2023

Long-form Simultaneous Speech Translation: Thesis Proposal

Peter Polák

TL;DR同时语音翻译 (SST) 的目标是提供实时的口语翻译，即使在发言者完成句子之前。传统上，SST 主要通过级联系统来解决，将任务分解为子任务，包括语音识别、分割和机器翻译。然而，深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而，当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子，这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译，特别是在长篇设定中，即不进行预分割。我们对 E2E SST 的最新进展进行了调研，评估了 SST 的主要障碍以及其与长篇情景的相关性，并提出了应对这些挑战的方法。

Abstract

simultaneous speech translation (SST) aims to provide real-time translation of spoken language, even before the speaker finishes their sentence. Traditionally, SST has been addressed primarily by cascaded systems that decompose the task into subtasks, including →

simultaneous speech translation end-to-end systems long-form setting speech recognition machine translation

发现论文，激发创造

端到端同步语音翻译的最新进展

该论文提供了对 SimulST 研究的综合概述，着重讨论了四个主要挑战，包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨，旨在提供对 SimulST 研究当前现状的宝贵见解，并为未来的探索提出有希望的方向。

Jun, 2024

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

基于标签同步的神经转录器的端到端同时语音翻译

LS-Transducer-SST 是一种用于实时语音转写和同时语音翻译的标签同步神经转导器，通过集成 - 发射机制实现了灵活决策翻译标记的时机，并且能在解码和训练时控制延迟与质量之间的权衡。实验结果表明，LS-Transducer-SST 在质量 - 延迟权衡方面优于现有的流行方法。

Jun, 2024

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

RealTranS: 基于卷积加权缩减 Transformer 的端到端实时语音翻译

本文提出了一种基于端到端模型的实时同声传译技术 RealTranS，通过交错的卷积和单向 Transformer 层逐渐对输入语音进行降采样，再通过带权收缩操作和语义编码器将语音特征映射到文本空间。此外，为了提高模型性能，本文提出了 Blank Penalty 和 Wait-K-Stride-N 策略，实验表明 RealTranS 模型在多种延迟设置下优于先前的端到端模型及级联模型。

Jun, 2021

从 SimulMT 到 SimulST: 将同时翻译文本转换为端到端同时翻译语音

本文调查了如何将同步文本翻译方法与同时语音翻译相结合，并通过引入预决定模块来适应于端到端的同时语音翻译。同时，对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法，该方法从平均滞后进行调整。

Nov, 2020

走向端到端的语音转文本摘要

将语音文字（S2T）摘要分为级联和端到端两种模型，并使用预训练的 T2T 摘要提取器进行迁移学习，进而将其应用于在线上传的广播新闻中。结果表明，端到端模型要略逊于级联模型，但都优于提取式基线模型。

Jun, 2023

长篇同传口译的再翻译策略

本研究针对如何实现长篇演讲等语音内容的同声传译问题，采用重新翻译的方式进行同步翻译，并提出了优化应用工具以加强稳定性的方法。研究结果表明，这种方法不仅延迟极低，翻译结果也具有高质量，能够轻易地进行多语言翻译。

Dec, 2019