基于因式分解神经传输器的长篇语音识别

Nov, 2022

基于因式分解神经传输器的长篇语音识别

LongFNT: Long-form Speech Recognition with Factorized Neural Transducer

Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao...

TL;DR提出一种名为 LongFNT 的架构，通过融合句子级别和标记级别的长时序特征和预训练的 RoBERTa 上下文编码器，扩展了长段音频输入的自动语音识别模型，显著降低了字错率。

Abstract

Traditional automatic speech recognition~(ASR) systems usually focus on individual utterances, without considering long-form speech with useful historical information, which is more practical in real scenarios. S

automatic speech recognition long-form speech neural transducer model contextual encoder word error rate

发现论文，激发创造

用于端到端语音识别模型的文本适应的快速准确因式分解神经转录器

介绍了因文本数据处理能力有限而提出的 FNT 模型及其在语音识别领域中的存在意义，并提出了多种方法来优化模型性能，使用这些方法后，相比于标准 FNT 模型，模型的错误率下降了 9.48%。

Dec, 2022

文本领域适应的改进因式化神经转导模型

通过设立独立语料库解码器预测词汇，改进因式神经变换器（IFNT）模型结构综合整合声学和语言信息，实现有效的文本适应，并在实验中展现了相对于标准神经变换器与浅层融合模型的 7.9% 至 28.5% 的相对词误率改善和相对于 FNT 模型的 1.6% 至 8.2% 的词误率降低。

Sep, 2023

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

基于分解神经传输器的外部语言模型集成

本文提出一种基于外部语言模型的分解神经传输器（FNT）适应方法，通过浅层融合和基于类别的 n-gram 语言模型的集成，取得了最高 60% WERR 的新增收益。

May, 2023

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

在分解神经传输器中融入基于类别的语言模型的命名实体识别

为了提高端到端模型中的实体识别能力，本研究将基于类别的语言模型应用于因式分解的神经递归式转录器（FNT）中，取得显著的实体识别误差降低。

Sep, 2023

利用大型语言模型改进长篇口语翻译

本研究旨在通过微调大型语言模型，将长语音自动识别转换成短模块，以提高翻译质量，在三种语言上表现实验效果优于自动标点基线，同时使用两种条件解码策略提高输出的良好性。

Dec, 2022

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

FunASR：一个基础的端到端语音识别工具包

FunASR 是一种开源的语音识别工具箱，其中最具代表性的 Paraformer 模型是一种非自回归端到端语音识别模型，经过手动注释的中文语音识别数据集的训练，同时还开放了基于 FSMN-VAD 和 CT-Transformer 的语音活动检测和文本后处理标点符号模型，这些模块为建立高精度长音频语音识别服务提供了坚实的基础，相较于在公开数据集上训练的其他模型表现更佳。

May, 2023