本文提出了一种新的稀疏表示模型,该模型采用共享字典和多个类别判定函数来描述不同类别的信号,并提出了学习该模型所有组件的优化方法,进一步提高了手写数字和纹理分类任务的准确性。
Sep, 2008
本文介绍基于分离结构的字典学习方法,使得学习过程中可以处理更大的图像块,并且字典在重建任务中被有效地应用。
Mar, 2013
提出了一种通过无监督的空间聚类算法训练深度聚类系统,从而在没有并行清洁数据时从头训练基于神经网络的源分离算法的方案。
Apr, 2019
本文提出了一种神经方法,用于远程语音识别(DSR),它能够在没有隔离信号的监督情况下,同时分离和解麦克风混合的语音,并没有未知数量的活跃说话者。
Jun, 2024
通过贝叶斯框架,使用稀疏源的混合问题,提出了一种对未观测源具有零原子和高斯分布的加权混合作为前任分布以促进稀疏度的下完备字典学习任务。
Aug, 2009
通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态(即音频)中使用条件模态(即语言)中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明,如果我们可以访问两个模态之间(即 CLAP)的预训练联合嵌入模型,这是可以实现的。另外,我们还在两个基本场景中将我们的框架纳入进行了改进,通过减小训练样本和测试样本之间的分布差异,我们的方法显著提高了纯无监督基准的性能,并且在信噪比(SDR)方面可以实现 71%的提升,达到了有监督学习性能的 97.5%。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身,可以进一步提高性能,使其成为强大的半监督音频分离框架。
Apr, 2024
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
Feb, 2020
本研究提出了一种方法,通过结合两种模型,即 SoundWords 和 SoundFilter 模型,以在共享的文本 - 音频表示法中定义的调节向量为基础,将目标声音源从单通道混合中分离出来,并证明了此多模式训练方法可以提高 SoundFilter 的性能。
Apr, 2022
本研究提出了新的损失函数和快速的近似算法,解决了 MixIT 方法过度分离以及计算复杂度限制输出源数量的问题,实验证明所提出的算法可以在更多的输出源数量下带来更好的性能。
Jun, 2021
提出了一种基于扩散生成模型的分离叠加源的新方法,通过最大后验估计和多重水平的高斯平滑指导下的 α 后验来建立新的目标函数,应用于射频系统,旨在恢复编码比特,实验结果表明,相比于经典和现有学习方法,我们的方法可以将误码率降低 95%。
Jun, 2023