BriefGPT.xyz
Ask
alpha
关键词
audio spectrograms
搜索结果 - 3
多视角声谱图变换器用于呼吸音分类
提出了一种 Multi-View Spectrogram Transformer (MVST) 模型,将深度神经网络应用于呼吸音频谱图的分类,通过将 mel-spectrogram 分为不同大小的 patches,使用 transforme
→
PDF
8 months ago
听觉遮盖自编码器
本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,
→
PDF
2 years ago
基于深度学习的音频信号频谱图的多类语言识别
本文介绍了一种使用卷积神经网络来进行语言识别的技术,即语音频谱的语言识别(LIFAS),它利用由音频信号产生的频谱图作为输入,对语言进行分类识别,达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。
PDF
5 years ago
Prev
Next