- 利用时间频率相关性和位置信息学习通过知识迁移增强情感辨识中基于谱图的准确度方法
本研究提出一种通过使用视觉转换器(ViT)关注频谱图中频率(y 轴)与时间(x 轴)之间的关联以及通过知识传递在 ViT 之间进行位置信息的传递的方法,从而提高语音情感识别(SER)的准确性,并通过验证实验结果表明,该方法在加权准确性和浮点 - TRLS: 一种基于频谱图的医学信号处理时间序列表示学习框架
通过使用频谱图,本文提出了一种基于时间序列(医学信号)的表示学习框架(TRLS),它能够从输入的时域医学信号中提取更具信息量的表示,通过时间频率 RNN(TFRNN)捕捉来自增强频谱图的更可靠的多尺度表示,同时通过最大化正样本之间的相似性来 - TSRNet: 实时心电图异常检测的简洁框架,多模态时间与频谱恢复网络
通过利用正常心电图数据进行训练,从而利用异常检测来识别不健康的条件;提出了一种名为 TSRNet 的专用网络,该网络能够通过从时间序列和时频领域提取的特征有效地捕捉心电图信号的综合特征,并通过引入基于峰值错误的推理方法来增强心电图异常检测的 - FALL-E: 佛利音效合成模型与策略
本文介绍了 FALL-E—— 一个 foley 合成系统及其训练 / 推理策略,FALL-E 采用级联方法,由低分辨率谱图生成、谱图超分辨率和声码器组成,利用数据集训练每个与声音相关的模型,并利用预训练的语言模型,通过数据集特定的文本对模型 - 自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法
采用 F-Attention 模块替代卷积神经网络前端,在语音识别系统中全局关注频率可以显著减少相对字错率。
- 使用分辨率变换后的频谱图进行深度学习的调制分类
本文提出了一种利用卷积神经网络生成频谱图进行自动调制分类的方案,该方案通过对不同信号进行分辨率变换以达到 99.61%的计算负载降低和 8 倍的速度提升。所提出的方法在现有 CNN 模型上评估表现,取得了 91.2% 的最佳分类准确率,并且 - 使用修改的 DCT 频谱驯服基于 Transformer 的 GAN 进行语音超分辨率
提出基于 MDCT 的 mdctGAN SSR 框架,通过敌对学习在 MDCT 域中以相位感知的方式重构高质量的语音,无需使用语音编解码器或其他额外的后处理,实验结果显示该模型在各种输入速率下,实现了 48 kHz 目标分辨率下的最新的对数 - DSVAE: 可解释的分离合成语音检测表示
本文提出使用 Disentangled Spectrogram Variational Auto Encoder (DSVAE) 处理语音谱图以生成可解释的表示,并创建激活映射来区分合成和真实人类讲话信号,通过 ASVspoof2019 数 - 使用整合的文本 - 梅尔频谱生成器进行端到端语音识别的纯文本领域自适应
这篇论文提出了一个端到端的自动语音识别系统,可以使用带有转录的语音数据、纯文本数据或两者的混合数据进行训练。该系统通过使用文本数据可显著提高在不同领域的 ASR 模型的准确性,在扩展 ASR 模型中引入 TTS 块从而创建梅尔频谱图,该块包 - ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练
在跨语言场景中进行了语音表示学习的探索,提出了语音文本联合预训练框架,通过学习重构不同语言的输入来进行预训练,取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。
- 光谱图是补丁的序列
本文介绍了一个名为 Patchifier 的自监督模型,利用 NLP 和 CV 领域的自监督学习方法,将音乐的频谱图作为一系列图块,并对其特征进行捕捉。使用仅包含 16k 个音乐片段的 MTAT 数据集进行预训练。该模型应用于多个下游任务, - 音频分类的谱图时间分辨率学习
本篇论文提出了一种新的方法,DiffRes,它通过不同 iable temporal resolution 学习来改善音频分类模型的性能。该方法可以在减少计算成本的同时实现与固定分辨率 mel-spectrogram 相同或更好的分类准确性 - CMGAN:基于 Conformer 的度量 GAN 用于单声道语音增强
本文提出了基于 Conformers 的度量生成对抗网络(CMGAN)用于时频域中的语音增强,并且在消除噪声、去混响和超分辨率等三个语音增强任务上取得了优越的性能。
- GAFX: 一般音频特征提取器
本研究比较了基于深度学习的特征提取方法和基于频谱图的现有方法,提出了一种通用音频特征提取器 (GAFX),并通过 GTZAN 数据集上的音乐分类任务进行了实验,并基于多个模型对该框架进行了详细的去枝剪枝研究。
- FAIR4Cov: 融合音频实例和表示的 COVID-19 检测
本研究提出一种基于多种体音构建的特征向量的新方法 FAIR4Cov,它利用自我关注融合单元将体音波形和频谱图的多重表示结合起来,以提高 COVID-19 检测性能,并实现了比单一表示模型更好的检测结果。
- ICMLA$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练
该研究提出了一种名为 A³T 的框架,通过将文本输入与声学 - 文本对齐结合,训练出预训练模型来生成高质量的重构语谱图,以实现有声编辑和无外部说话人验证模型的多说话人语音合成。
- 控制视觉引导的声音生成
本文在视觉诱发音频生成方面进行了研究,提出了一种单一模型,可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音,并使用新型的 FID 和 MKL 度量标准对其进行了评估。
- ICLR端到端对抗文本转语音
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
- nnAudio:一个基于 1D 卷积神经网络的 GPU 音频到频谱图转换工具箱
本文介绍了一种基于神经网络的工具箱 nnAudio,该工具箱可以将时间域转换为频率域,并可以在生成频谱图的同时进行反向传播,从而可以进行优化。实验结果表明,在使用 GPU 时,nnAudio 可将 waveform-to-spectrogr - AAAIPHASEN:一个考虑相位和谐波的语音增强网络
本文介绍了一种基于深度神经网络的相位和谐感知模型(PHASEN),用于单通道语音增强,其中使用两种不同的流进行幅度和相位预测,并设计了频率转换模块来捕捉沿频率轴的长程相关性,在 AVSpeech + AudioSet 和 Voice Ban