不要在语音到文本翻译中放弃固定窗口音频分割

Oct, 2022

不要在语音到文本翻译中放弃固定窗口音频分割

Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation

Chantal Amrhein, Barry Haddow

TL;DR本研究比较了不同方法对提高在线口译的鲁棒性的效果，并在离线和在线设置中测试了不同的分段策略，研究结果表明，在适当的条件下，简单的固定窗口音频分段可以表现出惊人的性能。

Abstract

For real-life applications, it is crucial that end-to-end spoken language translation models perform well on continuous audio, without relying on human-supplied segmentation. For online →

spoken language translation continuous audio segmentation online translation translation quality

发现论文，激发创造

非分段输入的同步翻译：滑动窗口方法

提出一种基于滑动窗口的方法来翻译语音识别输出，实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数，且减少了重新翻译的需要。

Oct, 2022

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

使用分割双语语音语料库优化语音分割的端到端语音翻译

本研究提出了一种基于二分类模型的语音分割方法，并结合检测静音的 VAD 方法，该方法更适用于级联和端到端语音翻译系统，翻译性能也得到了进一步提升。

Mar, 2022

轻量级音频分割用于长篇语音翻译

提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Jun, 2024

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

关于使用注意力机制分隔单词的难度

在语音领域中，基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明，仅依靠注意力机制是不稳健的，只有在训练数据包含话语标注的情况下才具有可用性。

Sep, 2021

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Oct, 2023

无分割流式机器翻译

提出一种无分割的框架，能够在生成翻译之前延迟分割决策，以在实时流中实现无分割的源流翻译，该框架在质量和延迟方面具有更好的权衡。

Sep, 2023

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

E2E Segmenter: 针对长形式 ASR 的联合分词和解码

使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD)，在处理长的音频片段时，不仅能够使用更好的声学特征进行分割决策，还可以使用文本解码得到的语义特征，从而有更好的性能表现。在 30 分钟内的真实世界音频实验中，相比于使用 VAD，我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。

Apr, 2022