朝着端到端可解释的卷积神经网络发展音波信号

May, 2024

朝着端到端可解释的卷积神经网络发展音波信号

Toward end-to-end interpretable convolutional neural networks for waveform signals

Linh Vu, Thu Tran, Wern-Han Lim, Raphael Phan

TL;DR用卷积神经网络构建高效且可解释的端到端音频深度学习模型，通过在三个标准语音情感识别数据集上的实验验证，我们的框架在效率和可解释性方面表现优越，对抗 Mel 频谱特征有高达 7% 的改进；还揭示了前端层在处理复杂的长波形模式方面的高效性和可解释性，通过 PhysioNet 心音数据库的实例进行了论证，为处理原始波形数据构建了可移植的有效模型解决方案。

Abstract

This paper introduces a novel convolutional neural networks (CNN) framework tailored for end-to-end audio deep learning models, presenting advancements in efficiency and explainability. By benchmarking experiment

convolutional neural networks end-to-end audio deep learning speech emotion recognition mel spectrogram features physionet heart sound database

发现论文，激发创造

原始波形的深度卷积神经网络

本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法，通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形，并在环境声音识别任务中取得了 15% 的性能提升，达到了使用对数 - 梅尔特征的模型的性能。

Oct, 2016

基于 SincNet 的可解释卷积滤波器

本研究提出了一种新的卷积神经网络模型 ——SincNet，该模型可用于直接处理从原始波形中提取的语音，通过使用参数化 sinc 函数，鼓励第一层学习更有意义的滤波器，学习带通滤波器的低高截止频率可以从数据中直接进行，该模型比标准 CNN 模型具有更快的收敛速度，更好的性能和更好的可解释性，这在说话人识别和语音识别方面得到了很好的实验验证。

Nov, 2018

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

利用多头卷积神经网络实现快速谱图反演

本研究提出了一种使用多头卷积神经网络（MCNN）架构从频谱生成波形的方法，而不需要迭代算法，能显著提高计算效率。对 MCNN 进行了大规模数据集的训练，并且损失函数的定义关注于声学感知质量。证明了 MCNN 是一种非常有前途的高质量语音合成方法。

Aug, 2018

利用卷积神经网络进行音乐音频信号的音色分析

探究如何利用卷积神经网络 (CNNs) 从对数 - 梅尔幅度谱图中有效地学习音色表示，提出了一种设计策略，旨在捕捉用于学习音质的相关时频上下文，并且设计了多个基于该策略的 CNN 体系结构。这些体系结构成功地应用于与音色相关的不同研究任务。

Mar, 2017

使用 SincNet 从原始波形中进行说话人识别

本文介绍了一种新的卷积神经网络架构，称为 SincNet，它使用基于参数化的 sinc 函数实现带通滤波器，以从原始的语音样本中学习低级别的语音表征，以更好地捕捉重要的窄带说话人特征，实验表明，该网络架构比标准的 CNN 在原始波形上更快地收敛并且表现更好。

Jul, 2018

深度自适应小波网络

本文提出一种采用多分辨率分析和波形表示的、深度神经网络的设计方法，以提升卷积神经网络的可解释性，并在图像分类任务中取得竞争性的准确性。

Dec, 2019

RawNet: 使用原始波形的高级端到端深度神经网络进行文本独立说话人验证

本文提出了一种端到端的系统，该系统包含两个深度神经网络，其一个用于提取语音级别的说话者嵌入，另一个用于后端分类，通过具有预训练方案的模型架构调整可以提取说话者嵌入，并使用附加目标函数简化提取过程，此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。

Apr, 2019

使用原始波形的音乐自动标记样本级 CNN 架构

本文介绍了一种基于改进了的 1 维卷积神经网络架构的音乐自动标记方法，该方法采用最先进的图像分类模型 ResNets 和 SENets 构建块，并添加多级特征聚合。结果表明，此方法在 MagnaTagATune 数据集上取得了显著改进，并在 Million Song 数据集上取得了可比结果。

Oct, 2017

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017