基于先进深度学习方法的自动语音识别：一项调查

Mar, 2024

基于先进深度学习方法的自动语音识别：一项调查

Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey

Hamza Kheddar, Mustapha Hemis, Yassine Himeur

TL;DR深度学习在自动语音识别方面的应用以及与其他先进的学习技术的综合回顾，旨在帮助研究人员和专业人员了解当前的挑战和未来的研究机会。

Abstract

Recent advancements in deep learning (DL) have posed a significant challenge for automatic speech recognition (ASR). ASR relies on extensive training datasets, including confidential ones, and demands substantial

deep learning automatic speech recognition adaptive systems deep transfer learning reinforcement learning

发现论文，激发创造

深度迁移学习用于自动语音识别：迈向更好的泛化能力

本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究，以帮助学术和专业人士了解当前挑战，并识别论文中每个框架的优缺点。

Apr, 2023

深度相互学习的端到端自动语音识别

本论文首次将深度相互学习（DML）应用于端到端自动语音识别模型，通过与标签平滑、定量采样和音频增强等近期代表性训练技术相结合，提高了大规模建模和紧凑建模的日语语音识别任务的性能表现。

Feb, 2021

演讲处理中的深度表示学习：挑战、最新进展和未来趋势

本文介绍了语音表征学习的不同技术的最新综述，将分散的研究汇集到了自动语音识别、说话人识别和说话人情感识别三个研究领域中，并弥补了以前综述中没有涉及语音表征学习的空白。

Jan, 2020

自然语音识别可视化 —— 提高理解的方法？

本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Feb, 2022

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

在超低资源环境下创建口语对话系统

自动语音识别（ASR）系统是一项关键技术，用于设计各种应用程序，尤其是智能助手，如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务，通过在语音级别和音素转录级别应用不同的数据增强技术，改进了现有模型的性能。

Dec, 2023

基于深度语音的印度英语口音端到端自动语音识别（ASR）

本研究使用转移学习和数据增强方法，对最近的 Deep Speech 模型（deepspeech-0.9.3）进行 fine-tuning，以开发一个适用于印度英语口音的端到端语音识别系统，并与其他可用的印度英语口音识别服务进行了比较。

Apr, 2022

利用差分隐私的联邦学习进行端到端语音识别

新论文提出了在自动语音识别中利用差分隐私实现联邦学习的模型，该模型通过对大型端到端变换器模型的架构设计、种子模型、数据异构性、领域转换和队友规模的影响等因素进行研究，实现了几乎最佳的联邦学习模型，同时应用差分隐私还能在用户级别保护用户隐私。

Sep, 2023