轻量级音频分割用于长篇语音翻译

Jun, 2024

轻量级音频分割用于长篇语音翻译

Lightweight Audio Segmentation for Long-form Speech Translation

Jaesong Lee, Soyoon Kim, Hanbyul Kim, Joon Son Chung

TL;DR提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Abstract

speech segmentation is an essential part of speech translation (ST) systems in real-world scenarios. Since most ST models are designed to process speech segments, long-form audio must be partitioned into shorter

speech segmentation speech translation st systems data-driven approaches pre-training strategy

发现论文，激发创造

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

利用大型语言模型改进长篇口语翻译

本研究旨在通过微调大型语言模型，将长语音自动识别转换成短模块，以提高翻译质量，在三种语言上表现实验效果优于自动标点基线，同时使用两种条件解码策略提高输出的良好性。

Dec, 2022

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Oct, 2023

使用分割双语语音语料库优化语音分割的端到端语音翻译

本研究提出了一种基于二分类模型的语音分割方法，并结合检测静音的 VAD 方法，该方法更适用于级联和端到端语音翻译系统，翻译性能也得到了进一步提升。

Mar, 2022

双向语言模型在语义分割中改善长篇语音识别

通过从语言模型中提炼标点符号知识，并将其应用于分割长篇语音，我们研究出一种优于其他方法的，实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。

May, 2023

SHAS：面向端对端语音翻译的接近最优分段方法

本文提出了基于 Supervised Hybrid Audio Segmentation (SHAS) 的语音翻译模型，该模型利用了 wav2vec 2.0 的语音表示和分治算法找到最佳的分段点，可以有效地处理长语音和不可用手动分段的情况，并在实验中表现出很高的零样本性能和接近手动分段的翻译质量。

Feb, 2022

不要在语音到文本翻译中放弃固定窗口音频分割

本研究比较了不同方法对提高在线口译的鲁棒性的效果，并在离线和在线设置中测试了不同的分段策略，研究结果表明，在适当的条件下，简单的固定窗口音频分段可以表现出惊人的性能。

Oct, 2022

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

具可微分分段的端到端同声传译

本文提出了一种基于 Differentiable Segmentation 的新型 SimulST 方法，该方法可以直接从底层翻译模型中学习分割，并通过所提出的期望训练将硬分割转换为可区分的方式，从而使其能够与翻译模型进行联合训练，从而实现优化的分割。实验结果表明，DiSeg 具有卓越的分割能力和最先进的性能。

May, 2023