本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014
我们提出了一种基于无监督自动学习的方法,可以学习出具有小样本复杂度的好的表示方法,在视觉对象识别等领域可以得到应用。通过无监督学习期间存储的一组模板,可以对每个图像块计算一种不变而又唯一的(有区分性的)签名,从而从很少的有标记例子中学习图像识别。
Nov, 2013
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
提出一种简单而有效的自监督框架,用于音频 - 视觉表示学习,以定位视频中的声音源。通过系统地研究数据增强的效果,揭示出数据增强的组成对学习有用的表示起到了至关重要的作用,并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。
Jun, 2022
本研究调查了构建学习卷积网络用于乐器识别的问题,并对三种不同的权重共享策略进行了性能测试,结果表明混合三种卷积层在单个深度学习体系结构中的效果最佳。
May, 2016
本研究通过利用物理对称性作为潜空间的一致性约束,并将其应用于后续的无监督学习中,以学习诸如线性音高因素之类的低维数据表示,并进一步提出了用于改进样本利用率的表示增强技术。
Feb, 2023
本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达,从而从听觉皮层表征语音信号的好处,以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束(XRMB)数据库的语音信号来训练前馈深度神经网络(DNN)以估计 6 个道路变量的发音轨迹。实验结果表明,该方法与利用 Mel 频率倒谱系数的先前实验相比,能达到更高的相关性(0.675)。
Mar, 2022
本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示,通过利用新的多模态标记行动识别数据集,并针对性地训练音频深度学习模型,从视觉和声学图像方面实现知识蒸馏,以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。
Apr, 2019
本文研究了深度卷积体系结构的多尺度不变表示问题,提出了基于卷积核网络的多层核方法,分析了核映射引起的几何学效应,表明可以将数据表示与学习分离,提出了模型复杂度的规范化测量,即控制所学模型的稳定性和泛化能力的重复核希尔伯特空间规范,证明了已有卷积神经网络能够映射到该空间中。
Jun, 2017
本文提出了可学习的自适应内容前端用于音频信号处理,通过卷积神经网络学习基础函数和权重优化特定任务,同时提出了一种计算内容自适应可学习时频表示的方法,实现了学习有限冲激响应滤波器组,并根据输入信号的内容通过最优滤波器组传递输出信号。
Mar, 2023