应用混合深度神经网络处理达里语音

May, 2023

应用混合深度神经网络处理达里语音

Employing Hybrid Deep Neural Networks on Dari Speech

Jawid Ahmad Baktash, Mursal Dawodi

TL;DR本文探讨了使用 Mel 频率倒谱系数特征提取方法和三种不同的深度神经网络模型 (CNN、RNN 和 MLP)，以及两个将 CNN 和 RNN 组合的混合模型识别达里语中个体单词的方法，结果表明，使用该技术可以获得 98.365% 的准确率。

Abstract

This paper is an extension of our previous conference paper. In recent years, there has been a growing interest among researchers in developing and improving speech recognition systems to facilitate and enhance human-computer interaction. Today, Automatic →

speech recognition low-resource languages dari language deep neural network models accuracy

发现论文，激发创造

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

使用 CNN、双向 LSTM 和 ResNet 的尼泊尔语自动语音识别

本文介绍了一种端到端的深度学习模型，用于将尼泊尔语音转录为文本的自动语音识别（ASR）。该模型在 OpenSLR（音频、文本）数据集上进行了训练和测试，使用了 MFCC 作为音频特征，采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型，在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上，字符错误率（CER）达到了 17.06%。

Jun, 2024

资源受限机器人的混合 ASR：HMM - 深度学习融合

提出了一种新颖的混合自动语音识别（ASR）系统，专为资源受限的机器人设计。该系统将隐马尔可夫模型（HMM）与深度学习模型相结合，并利用套接字编程来有效地分配处理任务。通过在机器人内部进行基于 HMM 的处理，同时由独立的计算机处理深度学习模型，实现了 HMM 和深度学习之间的协同，显著提高了语音识别准确性。通过在各种机器人平台上进行实验，演示了实时精确的语音识别能力。该系统在适应不断变化的声学环境和兼容低功耗硬件方面具有灵活性，使其在计算资源有限的环境中非常有效。这种混合 ASR 范式为无缝人机交互提供了有前景的可能性。总之，我们的研究为针对机器人的 ASR 技术引入了一种开创性的维度。通过利用套接字编程在不同设备上分配处理任务，并巧妙地组合 HMM 和深度学习模型，我们的混合 ASR 系统展示了它在使机器人能够熟练理解和响应口语，甚至在计算资源受限的环境中的潜力。这种范式在各种现实场景下提升人机交互的创新方向。

Sep, 2023

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015