FunASR：一个基础的端到端语音识别工具包

May, 2023

FunASR：一个基础的端到端语音识别工具包

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi...

TL;DRFunASR 是一种开源的语音识别工具箱，其中最具代表性的 Paraformer 模型是一种非自回归端到端语音识别模型，经过手动注释的中文语音识别数据集的训练，同时还开放了基于 FSMN-VAD 和 CT-Transformer 的语音活动检测和文本后处理标点符号模型，这些模块为建立高精度长音频语音识别服务提供了坚实的基础，相较于在公开数据集上训练的其他模型表现更佳。

Abstract

This paper introduces funasr, an open-source speech recognition toolkit designed to bridge the gap between academic research and industrial applications. →

funasr speech recognition paraformer mandarin industrial corpora

发现论文，激发创造

Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

为了加速端到端语音识别中的推理，本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer，其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量，并使用瞥见语言模型（GLM）实现语义嵌入，最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中，Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。

Jun, 2022

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

基于因式分解神经传输器的长篇语音识别

提出一种名为 LongFNT 的架构，通过融合句子级别和标记级别的长时序特征和预训练的 RoBERTa 上下文编码器，扩展了长段音频输入的自动语音识别模型，显著降低了字错率。

Nov, 2022

EasyASR：一种用于端到端自动语音识别的分布式机器学习平台

EasyASR 是一个分布式机器学习平台，用于在分布式 GPU 集群上训练和提供大规模的自动语音识别模型，并收集和处理大规模音频数据。该平台支持预定义或用户自定义网络体系结构的 ASR 模型学习，并在多个公共数据集上实现了普通话语音识别的最新成果。

Sep, 2020

SeACo-Paraformer: 一个灵活且高效的非自回归 ASR 系统，具备可定制化的热词能力

我们提出了一种具有灵活和有效的热词自定义能力的新型非自回归型 ASR 系统，该系统结合了基于 AED 模型的准确性、非自回归模型的高效性以及上下文化的出色性能，在大规模实验中优于其他基线模型，同时我们还探索了一种高效的方式来过滤大规模的热词以进一步提高性能。

Aug, 2023

ASDF：自动语音识别系统的差分测试框架

该论文提出了 ASDF（Automated Speech Recognition Differential Testing Framework）自动语音识别差异性测试框架，通过文本转换和音素分析模块生成更多高质量的音频测试用例，有助于改善 ASR 系统的性能。

Feb, 2023

语音转文本非自回归建模的比较研究

本文对不同的无自回归（NAR）建模方法进行了比较性研究，实验证明了 NAR 模型相较自回归基线的精度降低代价下，可以同时在序列中生成多个输出，具有在实时应用中优足的潜力，在自动语音识别领域的性能差距上得到了一些有趣的发现，并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。

Oct, 2021

低延迟无 ASR 端到端口语理解系统

本文提出了一种语音理解系统，可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本，同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上，并且具有最小延迟以逐段处理输入音频数据，并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好)，同时具有低延迟和更小的模型。

Nov, 2020

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

FASA：一种用于提取高质量对齐儿童语音数据的灵活自动对齐器

通过提出一种新的强制对齐工具 FASA，可以从现有的嘈杂的儿童语音数据中提取高质量的对齐儿童语音数据，并显示 FASA 可以比人工标注提高数据质量 13.6 倍。

Jun, 2024