本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究,以帮助学术和专业人士了解当前挑战,并识别论文中每个框架的优缺点。
Apr, 2023
本论文首次将深度相互学习(DML)应用于端到端自动语音识别模型,通过与标签平滑、定量采样和音频增强等近期代表性训练技术相结合,提高了大规模建模和紧凑建模的日语语音识别任务的性能表现。
Feb, 2021
本文介绍了语音表征学习的不同技术的最新综述,将分散的研究汇集到了自动语音识别、说话人识别和说话人情感识别三个研究领域中,并弥补了以前综述中没有涉及语音表征学习的空白。
Jan, 2020
本文介绍了如何使用图像识别中的归因方法,结合音频数据,帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation(LRP)、Saliency Maps 和 Shapley Additive Explanations(SHAP)这三种可视化技术,展示了归因方法的优势和应用前景,包括在检测对抗性样本方面。
Feb, 2022
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
Dec, 2023
本研究使用转移学习和数据增强方法,对最近的 Deep Speech 模型(deepspeech-0.9.3)进行 fine-tuning,以开发一个适用于印度英语口音的端到端语音识别系统,并与其他可用的印度英语口音识别服务进行了比较。
Apr, 2022
新论文提出了在自动语音识别中利用差分隐私实现联邦学习的模型,该模型通过对大型端到端变换器模型的架构设计、种子模型、数据异构性、领域转换和队友规模的影响等因素进行研究,实现了几乎最佳的联邦学习模型,同时应用差分隐私还能在用户级别保护用户隐私。
Sep, 2023