SHAS：面向端对端语音翻译的接近最优分段方法

Feb, 2022

SHAS：面向端对端语音翻译的接近最优分段方法

SHAS: Approaching optimal Segmentation for End-to-End Speech Translation

Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà

TL;DR本文提出了基于 Supervised Hybrid Audio Segmentation (SHAS) 的语音翻译模型，该模型利用了 wav2vec 2.0 的语音表示和分治算法找到最佳的分段点，可以有效地处理长语音和不可用手动分段的情况，并在实验中表现出很高的零样本性能和接近手动分段的翻译质量。

Abstract

speech translation models are unable to directly process long audios, like TED talks, which have to be split into shorter segments. speech translation datasets provide manual segmentations of the audios, which ar

speech translation audio segmentation shas wav2vec 2.0 zero-shot

发现论文，激发创造

使用分割双语语音语料库优化语音分割的端到端语音翻译

本研究提出了一种基于二分类模型的语音分割方法，并结合检测静音的 VAD 方法，该方法更适用于级联和端到端语音翻译系统，翻译性能也得到了进一步提升。

Mar, 2022

轻量级音频分割用于长篇语音翻译

提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Jun, 2024

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

基于分段增强的语音翻译数据效用最大化（SegAugment）

提出了一种名为 SegAugment 的数据增强方法，通过音频分割系统重新分割每个文档的语音，以获取多个目标文本，并得到多个和不同的句子级视图，实现了语音翻译中的数据增强，平均 BLEU 分数增加了 2.2 个点，并且在低资源场景下增加了 4.7 个 BLEU 点。

Dec, 2022

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Oct, 2023

知识蒸馏的端到端语音翻译：FBK@IWSLT2020

本文介绍了 FBK 参加 IWSLT 2020 离线语音翻译任务的方法和成果，使用基于 Transformer 模型的端到端系统，并运用了 ASR 预训练、数据增强、多任务学习等技术，最佳 BLEU 得分达到 29，优于最近相关研究。

Jun, 2020

E2E Segmenter: 针对长形式 ASR 的联合分词和解码

使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD)，在处理长的音频片段时，不仅能够使用更好的声学特征进行分割决策，还可以使用文本解码得到的语义特征，从而有更好的性能表现。在 30 分钟内的真实世界音频实验中，相比于使用 VAD，我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。

Apr, 2022

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

音频感知的查询增强变换器用于音频 - 视觉分割

通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征，我们提出了一种新颖的音频感知查询增强转换器 (AuTR)，用于解决音频 - 视觉分割任务。实验结果表明，我们的方法在多声音和开放场景中具有更好的普适性和性能优势。

Jul, 2023

不要在语音到文本翻译中放弃固定窗口音频分割

本研究比较了不同方法对提高在线口译的鲁棒性的效果，并在离线和在线设置中测试了不同的分段策略，研究结果表明，在适当的条件下，简单的固定窗口音频分段可以表现出惊人的性能。

Oct, 2022