ESResNe (X) t-fbsp:学习音频时间 - 频率鲁棒变换
本文提出了一种基于 STFT 频谱图与图像领域多个网络模型相结合的模型并针对标准数据集进行了评估,在 Environmental Sound Classification 领域中取得了目前最高的分类精度。同时对该领域已有的研究方法进行了全面梳理,为其他研究提供了实用的参考。
Apr, 2020
本文提出了一种基于子带的语音增强系统,名为 PT-FSE,该系统通过对子带频谱图的操作来增强语音,其中包括全频带和子频带的融合模型、频率变换模块、时间变换和人类听觉感知的损失函数,实验结果表明,该系统达到了显著的改进,并且在基准数据集上优于当前最先进的技术。
Sep, 2022
本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时,超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
Sep, 2023
本研究提出了一个扩展 CLIP 模型,使用 AudioSet 数据集来支持音频的双模和单模分类以及查询,同时保持了 CLIP 模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果,并评估了提出模型的跨模态查询表现以及全量和部分训练对结果的影响。
Jun, 2021
本文介绍了一个最新的基于端到端的语音识别测试平台,探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持,并对不同的系统进行了比较分析分析,发现端到端系统在不同数据集的应用效果良好,并指出了如何改进现有语音识别系统存在的问题。
Oct, 2022
本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示,发现 Mel-scaled STFT 方法表现最佳。同时还发现,信号的特点以及转化窗口的大小都对分类结果有影响,2D 卷积神经网络在大多数情况下都比 1D 效果更好。
Jun, 2017
本文提出了一种多维结构化状态空间(S4)方法来增强语音,将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性,探索了几种基于 S4 的 T 和 TF 深层结构,其中,在 TF 领域中,与基于卷积层的传统 U 型模型相比,所提出的 S4 模型尺寸缩小了 78.6%,但在数据增强的情况下仍然达到了竞争性结果,具有较好的 PESQ 分数。
Jun, 2023
改进了现有语音识别中常用的特征提取方法,采用小波散射变换(WST)为低资源语音识别系统提供精确信息,通过优化 WST 特征和使用不同的 WST 超参数开发 ECAPA-TDNN 基于 LID 系统,大大改善了对未知数据的泛化能力。
Oct, 2023
通过使用 Fast Fourier Convolution 和 Residual Swin Transformer 改进的方法和新的 cross-attention 模块,我们提出了一种名为 SwinFSR 的 Stereo Image Super-Resolution 方法,并且实验结果表明了该方法的有效性和高效性。
Apr, 2023
通过研究音频输入时长对现有预训练嵌入模型的影响,本研究发现音频光谱图变换系统在较短的时间支持下仍然有效,从而大大减少了内存和计算成本,同时通过选择最佳时间支持,实现了在所有任务上具有竞争力的结果。
Dec, 2023