E2E Segmenter: 针对长形式 ASR 的联合分词和解码

Apr, 2022

E2E Segmenter: 针对长形式 ASR 的联合分词和解码

E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR

W. Ronny Huang, Shuo-yiin Chang, David Rybach, Rohit Prabhavalkar, Tara N. Sainath...

TL;DR使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD)，在处理长的音频片段时，不仅能够使用更好的声学特征进行分割决策，还可以使用文本解码得到的语义特征，从而有更好的性能表现。在 30 分钟内的真实世界音频实验中，相比于使用 VAD，我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。

Abstract

Improving the performance of end-to-end asr models on long utterances ranging from minutes to hours in length is an ongoing challenge in speech recognition. A common solution is to segment the audio in advance using a separate voice activity detector (VAD) that decides segment boundary

asr voice activity detector segmentation long-form audio conformer rnn-t model

发现论文，激发创造

双向语言模型在语义分割中改善长篇语音识别

通过从语言模型中提炼标点符号知识，并将其应用于分割长篇语音，我们研究出一种优于其他方法的，实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。

May, 2023

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

双通道级联编码 ASR 模型中的 E2E 分割

我们探讨了将神经分割器与两次级联编码器 ASR 统一为单个模型。我们提出了一种设计，其中神经分割器与因果一次传递解码器集成在一起，以实时发出分段结束（EOS）信号。我们尝试了不同的方式来最终确定第二遍，发现一种新颖的虚拟帧注入策略可以同时实现高质量的第二遍结果和低延迟。在一个实际的长形字幕任务（YouTube）中，我们比基线 VAD 基于分割器使用相同的级联编码器获得了 2.4% 的相对 WER 和 140 毫秒的 EOS 延迟增益。

Nov, 2022

使用分割双语语音语料库优化语音分割的端到端语音翻译

本研究提出了一种基于二分类模型的语音分割方法，并结合检测静音的 VAD 方法，该方法更适用于级联和端到端语音翻译系统，翻译性能也得到了进一步提升。

Mar, 2022

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

长篇语音识别的更新语料库和基准

本文重新发布三个标准的 ASR 语料库，用于长篇 ASR 研究，并研究了训练与测试数据不匹配问题，通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。

Sep, 2023

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Oct, 2023

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022