基于端到端ASR模型的实时转录评估

Sep, 2024

基于端到端ASR模型的实时转录评估

Evaluation of real-time transcriptions using end-to-end ASR models

Carlos Arriaga, Alejandro Pozo, Javier Conde, Alvaro Alonso

TL;DR本研究解决了实时转录中音频分割带来的挑战，传统的ASR模型未能有效支持实时处理。通过评估三种音频分割算法（固定间隔、语音活动检测和反馈分割），本研究提出了一种新的反馈算法，能在延迟减少的同时仅略微提高错误率。该研究的发现为实时转录系统的设计提供了优化方案，具有重要的实际应用价值。

Abstract

Automatic Speech Recognition (ASR) or Speech-to-text (STT) has greatly evolved in the last few years. Traditional architectures based on pipelines have been replaced by joint end-to-end (E2E) architectures that simplify and streamline the model training process. In addition, new AI tra

发现论文，激发创造

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和TTS技术，对ASR的训练数据进行扩充，并通过集成语言模型，在LibriSpeech数据上建立end-to-end模型，相对于半监督技术的效果更好。

May, 2020

E2E Segmenter: 针对长形式ASR的联合分词和解码

使用端到端的自动语音识别模型代替传统的语音活动检测器(VAD)，在处理长的音频片段时，不仅能够使用更好的声学特征进行分割决策，还可以使用文本解码得到的语义特征，从而有更好的性能表现。在30分钟内的真实世界音频实验中，相比于使用 VAD，我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。

Apr, 2022

探究面向跨语言低资源ASR评估的数据分割策略

本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能，揭示不同说话者数据选取对模型性能的影响，表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。

Aug, 2022

快速高效语音系统统一的端到端语音识别和端点检测

通过引入“开关”连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用ASR音频编码器的信息来提高EP质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

长篇语音识别的更新语料库和基准

本文重新发布三个标准的ASR语料库，用于长篇ASR研究，并研究了训练与测试数据不匹配问题，通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。

Sep, 2023

启用低资源语言的ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合ASR训练的长度，简化了资源稀缺语言中ASR系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的ASR模型性能。

Jun, 2024

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法——引导式PIT（GPIT），在不同度量指标上取得了6.4%的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024

自动语音识别系统——印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于JavaScript和Node.js的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

基于端到端自动语音识别模型的实时转录评估

本研究解决了在实时语音转录中，音频分割对转录质量和延迟的影响这一重要问题。通过评估三种音频分割算法，提出了一种反馈分割算法，实验结果表明该算法在保证延迟减少的同时，改善了转录效果，具有显著的应用潜力。

Sep, 2024