May, 2019

基于深度学习的音频信号频谱图的多类语言识别

TL;DR本文介绍了一种使用卷积神经网络来进行语言识别的技术,即语音频谱的语言识别(LIFAS),它利用由音频信号产生的频谱图作为输入,对语言进行分类识别,达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。