资源受限机器人的混合 ASR：HMM - 深度学习融合

Sep, 2023

资源受限机器人的混合 ASR：HMM - 深度学习融合

Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion

Anshul Ranjan, Kaushik Jegadeesan

TL;DR提出了一种新颖的混合自动语音识别（ASR）系统，专为资源受限的机器人设计。该系统将隐马尔可夫模型（HMM）与深度学习模型相结合，并利用套接字编程来有效地分配处理任务。通过在机器人内部进行基于 HMM 的处理，同时由独立的计算机处理深度学习模型，实现了 HMM 和深度学习之间的协同，显著提高了语音识别准确性。通过在各种机器人平台上进行实验，演示了实时精确的语音识别能力。该系统在适应不断变化的声学环境和兼容低功耗硬件方面具有灵活性，使其在计算资源有限的环境中非常有效。这种混合 ASR 范式为无缝人机交互提供了有前景的可能性。总之，我们的研究为针对机器人的 ASR 技术引入了一种开创性的维度。通过利用套接字编程在不同设备上分配处理任务，并巧妙地组合 HMM 和深度学习模型，我们的混合 ASR 系统展示了它在使机器人能够熟练理解和响应口语，甚至在计算资源受限的环境中的潜力。这种范式在各种现实场景下提升人机交互的创新方向。

Abstract

This paper presents a novel hybrid automatic speech recognition (ASR) system designed specifically for resource-constrained robots. The proposed approach combines →

hybrid automatic speech recognition resource-constrained robots hidden markov models deep learning models socket programming

发现论文，激发创造

应用混合深度神经网络处理达里语音

本文探讨了使用 Mel 频率倒谱系数特征提取方法和三种不同的深度神经网络模型 (CNN、RNN 和 MLP)，以及两个将 CNN 和 RNN 组合的混合模型识别达里语中个体单词的方法，结果表明，使用该技术可以获得 98.365% 的准确率。

May, 2023

深度相互学习的端到端自动语音识别

本论文首次将深度相互学习（DML）应用于端到端自动语音识别模型，通过与标签平滑、定量采样和音频增强等近期代表性训练技术相结合，提高了大规模建模和紧凑建模的日语语音识别任务的性能表现。

Feb, 2021

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

基于先进深度学习方法的自动语音识别：一项调查

深度学习在自动语音识别方面的应用以及与其他先进的学习技术的综合回顾，旨在帮助研究人员和专业人员了解当前的挑战和未来的研究机会。

Mar, 2024

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

基于端到端、模块化系统和人类的阿拉伯语语音识别

这篇文章探讨了自动语音识别方面的技术进展，并比较了针对阿拉伯语和其方言的端到端 Transformer ASR，模块化 HMM-DNN ASR 和人类讲话识别技术之间的性能差距，结果表明，人类在阿拉伯语方面表现仍然明显优于机器。

Jan, 2021

深度迁移学习用于自动语音识别：迈向更好的泛化能力

本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究，以帮助学术和专业人士了解当前挑战，并识别论文中每个框架的优缺点。

Apr, 2023

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

LibriSpeech 的 RWTH ASR 系统：混合式 vs 注意力机制 —— 不含数据增强

本文比较了使用标准的混合 DNN/HMM 架构和基于注意力机制的编码器 - 解码器设计的自动语音识别系统，提供了两种系统架构的模型设计、预训练方案、训练进度和优化方法的详细描述，用于声学建模 / 编码采用双向 LSTM，用于语言建模的 LSTM 和 Transformer 模型，实验证明在 LibriSpeech 960h 任务中，使用混合 DNN/HMM 系统比注意力机制系统在单词错误率上更有效。

May, 2019

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022