通过潜在对齐分段实现长篇连贯语音翻译

Sep, 2023

通过潜在对齐分段实现长篇连贯语音翻译

Long-Form End-to-End Speech Translation via Latent Alignment Segmentation

Peter Polák, Ondřej Bojar

TL;DR提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Abstract

Current simultaneous speech translation models can process audio only up to a few seconds long. Contemporary datasets provide an oracle segmentation into sentences based on human-annotated transcripts and transla

simultaneous speech translation segmentation low-latency encoder-decoder architecture state-of-the-art quality

发现论文，激发创造

轻量级音频分割用于长篇语音翻译

提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Jun, 2024

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Oct, 2023

使用分割双语语音语料库优化语音分割的端到端语音翻译

本研究提出了一种基于二分类模型的语音分割方法，并结合检测静音的 VAD 方法，该方法更适用于级联和端到端语音翻译系统，翻译性能也得到了进一步提升。

Mar, 2022

非分段输入的同步翻译：滑动窗口方法

提出一种基于滑动窗口的方法来翻译语音识别输出，实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数，且减少了重新翻译的需要。

Oct, 2022

双向语言模型在语义分割中改善长篇语音识别

通过从语言模型中提炼标点符号知识，并将其应用于分割长篇语音，我们研究出一种优于其他方法的，实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。

May, 2023

具可微分分段的端到端同声传译

本文提出了一种基于 Differentiable Segmentation 的新型 SimulST 方法，该方法可以直接从底层翻译模型中学习分割，并通过所提出的期望训练将硬分割转换为可区分的方式，从而使其能够与翻译模型进行联合训练，从而实现优化的分割。实验结果表明，DiSeg 具有卓越的分割能力和最先进的性能。

May, 2023

利用大型语言模型改进长篇口语翻译

本研究旨在通过微调大型语言模型，将长语音自动识别转换成短模块，以提高翻译质量，在三种语言上表现实验效果优于自动标点基线，同时使用两种条件解码策略提高输出的良好性。

Dec, 2022

低延迟同时语音翻译的端到端评估

低延迟语音翻译的评估框架：该研究提出了第一个在真实场景下执行和评估低延迟语音翻译各个方面的框架，通过对音频分割和不同组件运行时间的评估，比较可修订输出模型和固定输出方法，对比级联和端到端系统，并自动评估翻译质量和延迟，并提供网页接口展示低延迟模型输出给用户。

Aug, 2023

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

长文同时语言翻译：论文提案

同时语音翻译 (SST) 的目标是提供实时的口语翻译，即使在发言者完成句子之前。传统上，SST 主要通过级联系统来解决，将任务分解为子任务，包括语音识别、分割和机器翻译。然而，深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而，当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子，这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译，特别是在长篇设定中，即不进行预分割。我们对 E2E SST 的最新进展进行了调研，评估了 SST 的主要障碍以及其与长篇情景的相关性，并提出了应对这些挑战的方法。

Oct, 2023