ESResNe (X) t-fbsp：学习音频时间 - 频率鲁棒变换

Apr, 2021

ESResNe (X) t-fbsp：学习音频时间 - 频率鲁棒变换

ESResNe(X)t-fbsp: Learning Robust Time-Frequency Transformation of Audio

Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel

TL;DR本文旨在提高环境声音分类的准确性，通过利用基于复频 B - 样条小波的时频转换层，加强模型的信号抗干扰能力并考察不同预训练策略的影响。使用 ImageNet 和 AudioSet 两个大规模数据集进行权重初始化和训练，本文提出的模型在 ESC-50 和 UrbanSound8K 数据集上取得了更高的准确率，达到了 95.20% 和 89.14%。

Abstract

environmental sound classification (ESC) is a rapidly evolving field that recently demonstrated the advantages of application of visual domain techniques to the audio-related tasks. Previous studies indicate that the domain-specific modification of →

environmental sound classification cross-domain approaches complex frequency b-spline wavelets pre-training strategies model robustness

发现论文，激发创造

ESResNet：基于视觉领域模型的环境声音分类

本文提出了一种基于 STFT 频谱图与图像领域多个网络模型相结合的模型并针对标准数据集进行了评估，在 Environmental Sound Classification 领域中取得了目前最高的分类精度。同时对该领域已有的研究方法进行了全面梳理，为其他研究提供了实用的参考。

Apr, 2020

具有感知驱动优化和双重转换的语音增强

本文提出了一种基于子带的语音增强系统，名为 PT-FSE，该系统通过对子带频谱图的操作来增强语音，其中包括全频带和子频带的融合模型、频率变换模块、时间变换和人类听觉感知的损失函数，实验结果表明，该系统达到了显著的改进，并且在基准数据集上优于当前最先进的技术。

Sep, 2022

RTFS-Net: 循环时间频率建模有效的音频视觉语音分离

本文提出了一种新颖的基于时频域的音视频语音分离方法：递归时频分离网络 (RTFS-Net)，通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模，并引入了独特的基于注意力的融合技术，以有效地整合音频和视觉信息，并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时，超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。

Sep, 2023

AudioCLIP: 将 CLIP 扩展到图像、文本和音频

本研究提出了一个扩展 CLIP 模型，使用 AudioSet 数据集来支持音频的双模和单模分类以及查询，同时保持了 CLIP 模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果，并评估了提出模型的跨模态查询表现以及全量和部分训练对结果的影响。

Jun, 2021

ESB：多域端到端语音识别基准测试

本文介绍了一个最新的基于端到端的语音识别测试平台，探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持，并对不同的系统进行了比较分析分析，发现端到端系统在不同数据集的应用效果良好，并指出了如何改进现有语音识别系统存在的问题。

Oct, 2022

使用卷积神经网络比较环境声音分类的时频表示

本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示，发现 Mel-scaled STFT 方法表现最佳。同时还发现，信号的特点以及转化窗口的大小都对分类结果有影响，2D 卷积神经网络在大多数情况下都比 1D 效果更好。

Jun, 2017

利用小型模型的多维深层结构状态空间方法进行语音增强

本文提出了一种多维结构化状态空间（S4）方法来增强语音，将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性，探索了几种基于 S4 的 T 和 TF 深层结构，其中，在 TF 领域中，与基于卷积层的传统 U 型模型相比，所提出的 S4 模型尺寸缩小了 78.6％，但在数据增强的情况下仍然达到了竞争性结果，具有较好的 PESQ 分数。

Jun, 2023

基于小样本语音语言识别的小波散射变换提升泛化能力

改进了现有语音识别中常用的特征提取方法，采用小波散射变换（WST）为低资源语音识别系统提供精确信息，通过优化 WST 特征和使用不同的 WST 超参数开发 ECAPA-TDNN 基于 LID 系统，大大改善了对未知数据的泛化能力。

Oct, 2023

SwinFSR: 使用 SwinIR 和频域知识的立体图像超分辨率

通过使用 Fast Fourier Convolution 和 Residual Swin Transformer 改进的方法和新的 cross-attention 模块，我们提出了一种名为 SwinFSR 的 Stereo Image Super-Resolution 方法，并且实验结果表明了该方法的有效性和高效性。

Apr, 2023

音频分类中最佳时间支持的选择与预训练嵌入

通过研究音频输入时长对现有预训练嵌入模型的影响，本研究发现音频光谱图变换系统在较短的时间支持下仍然有效，从而大大减少了内存和计算成本，同时通过选择最佳时间支持，实现了在所有任务上具有竞争力的结果。

Dec, 2023