应用混合深度神经网络处理达里语音
通过应用连续的孟加拉语音,我们提出了一种方法来确定某个地区说话者的地理身份,使用了 Mel 频率倒谱系数(MFCC)和 Delta 特征在人工神经网络上对说话者进行分类,并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据,并获得了 85.44% 的最高准确率。
Apr, 2024
本文介绍了一种端到端的深度学习模型,用于将尼泊尔语音转录为文本的自动语音识别(ASR)。该模型在 OpenSLR(音频、文本)数据集上进行了训练和测试,使用了 MFCC 作为音频特征,采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型,在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上,字符错误率(CER)达到了 17.06%。
Jun, 2024
提出了一种新颖的混合自动语音识别(ASR)系统,专为资源受限的机器人设计。该系统将隐马尔可夫模型(HMM)与深度学习模型相结合,并利用套接字编程来有效地分配处理任务。通过在机器人内部进行基于 HMM 的处理,同时由独立的计算机处理深度学习模型,实现了 HMM 和深度学习之间的协同,显著提高了语音识别准确性。通过在各种机器人平台上进行实验,演示了实时精确的语音识别能力。该系统在适应不断变化的声学环境和兼容低功耗硬件方面具有灵活性,使其在计算资源有限的环境中非常有效。这种混合 ASR 范式为无缝人机交互提供了有前景的可能性。总之,我们的研究为针对机器人的 ASR 技术引入了一种开创性的维度。通过利用套接字编程在不同设备上分配处理任务,并巧妙地组合 HMM 和深度学习模型,我们的混合 ASR 系统展示了它在使机器人能够熟练理解和响应口语,甚至在计算资源受限的环境中的潜力。这种范式在各种现实场景下提升人机交互的创新方向。
Sep, 2023
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型,分别在印度语种中取得 9.66% ~ 27.24%不等的相对准确率提升。
Jan, 2022
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本研究使用深度神经网络(DNN)学习特征表示和亚音素后验概率,证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低,以及在 NIST 2011 语音识别评估测试中,在 30 秒测试条件下取得 48% 的 EER 降低。
Apr, 2015
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型,结合了深度神经网络和双向长短期记忆网络,在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。
Apr, 2015