基于深度学习的音频信号频谱图的多类语言识别

May, 2019

基于深度学习的音频信号频谱图的多类语言识别

Multiclass Language Identification using Deep Learning on Spectral Images of Audio Signals

Shauna Revay, Matthew Teschke

TL;DR本文介绍了一种使用卷积神经网络来进行语言识别的技术，即语音频谱的语言识别（LIFAS），它利用由音频信号产生的频谱图作为输入，对语言进行分类识别，达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。

Abstract

The first step in any voice recognition software is to determine what language a speaker is using, and ideally this process would be automated. The technique described in this paper, language identification for audio spectrograms (LIFAS), uses spectrograms generated from audio signals

language identification audio spectrograms convolutional neural network deep learning multi-class classification

发现论文，激发创造

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

利用频谱增强技术进行混合语言口语识别

本研究针对印度语境下多种语言混杂的情况，对在语音处理中较为基础的语种识别系统 LID 进行优化，提出基于语种掩蔽和光谱增强的方法，在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。

Oct, 2020

多语言 CapsNet 模型的细粒度语言识别

本文提出了一种实时语音检测方法，采用 Capsule Networks 架构，能以高达 91.8％的准确率检测出 5 秒音频片段中的口语语言，数据要求和预处理工作较少。

Jul, 2020

通过多标签分类实现有效的口语语言识别

本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型，并在训练时采用多标签的方式来应对非目标语种的识别，实验结果表明，该模型相比当前最先进的方法在速度上有数量级的提升，并且在多标签分类任务中更加稳健。

Jun, 2023

使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别

本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块，成功实现了对混合代码数据的单词级别的语言识别，准确率高达 93.28％和 93.32％。

Aug, 2018

音频信号处理的深度学习

该研究文章综述了当前音频信号处理领域中基于深度学习的技术，着重介绍了其在语音、音乐、环境声音处理中的相同点和差异，强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型，以及其在音频识别和合成分离领域的应用，并最终确定了深度学习在音频信号处理中的关键问题和未来研究方向。

Apr, 2019

面向语言识别的标签感知语音表示学习

本文提出了一种新的 Label Aware Speech Representation (LASR) 方法，将自我监督表示学习与语言标签信息相结合，使用三元组目标函数将语言标签与自我监督损失函数结合起来，并进一步优化语音表示以适用于下游任务，发现该方法比现有的语言识别系统更为有效，并可应用于多语音识别任务。

Jun, 2023

生物声音的自动深度学习

该研究探讨了自动化深度学习在多类鸟类声音分类中提高准确性和效率的潜力，与传统手动设计的深度学习模型进行对比。采用西地中海湿地鸟类数据集，研究了使用 AutoKeras（一种自动化机器学习框架）来自动化神经架构搜索和超参数调优。比较分析验证了我们的假设，即 AutoKeras 导出的模型在性能上一直优于传统模型（如 MobileNet、ResNet50 和 VGG16）。该研究突显出自动化深度学习在推动生物声学研究和模型方面的变革潜力，事实上，自动化技术消除了对手动特征工程和模型设计的需求，同时提高了性能。该研究通过样本、评估和报告的最佳实践，提升了这一新兴领域的可复制性。所有使用的代码可在 https://github.com/giuliotosato/AutoKeras-bioacustic 获取。

Nov, 2023

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017