SpeechNet：工业级弱监督端到端语音识别

EMNLPNov, 2022

SpeechNet：工业级弱监督端到端语音识别

SpeechNet: Weakly Supervised, End-to-End Speech Recognition at Industrial Scale

Raphael Tang, Karun Kumar, Gefei Yang, Akshat Pandey, Yajie Mao...

TL;DR本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Abstract

End-to-end automatic speech recognition systems represent the state of the art, but they rely on thousands of hours of manually annotated speech for training, as well as heavyweight computation for inference. Of course, this impedes commercialization since most companies lack vast huma

automatic speech recognition weak supervision label-scarce compute-limited wav2vec

发现论文，激发创造

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

低延迟无 ASR 端到端口语理解系统

本文提出了一种语音理解系统，可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本，同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上，并且具有最小延迟以逐段处理输入音频数据，并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好)，同时具有低延迟和更小的模型。

Nov, 2020