学习噪声不变表示以实现稳健语音识别
本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示,以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性,尤其适用于仅针对少量噪声类别进行训练的情况。
Nov, 2016
该文介绍了一种使用隐式神经表示和超网络获取图像的不变语义表示的方法,该方法可以在任意或随机旋转和平移的图像中获取方向不变的语义表示,并与 SCAN 结合,获得最新的无监督聚类结果。
Apr, 2023
本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014
提出一种使用不变量风险最小化 (invariant risk minimization) 范式,学习不变表示以实现跨多个环境更好的泛化的方法。实验证明它可以减少有结构的噪声、忽略特定的伪相关性并提高域外泛化性能。
Oct, 2021
该研究论文通过机器学习的视角,提供了正式的 LNRL 定义并分析了噪声标签对深度学习模型性能的影响。在此基础上,将 LNRL 方法划分为三种不同方向,并讨论了各种分类的优缺点。论文旨在提高通过设计鲁棒的 LNRL 方法进行深度学习模型训练的效率,同时提出了一些其他研究方向。
Nov, 2020
研究了基于模块化框架的表示学习算法在模仿学习中的应用,发现对于基于图像的模仿学习,在多个环境套件中,现有的表示学习算法相对于图像增强的精心调整的基准测试提供的价值有限,并对此结果进行了解释。
May, 2022
本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现,通过使用多样性和嘈杂的语音数据学习表示,并在多个语言中验证其鲁棒性和可迁移性。结果显示,该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。
Jan, 2020
通过在学习过程中采用来自预测和监督信号的均值作为监督信号的替代,我们提出了一种用于正则化隐式神经表示模型(INR)在图像去噪中的通用方法,从理论上证明这样的简单迭代替代可以逐渐增强监督信号的信噪比,从而有利于 INR 模型的学习过程,实验证明采用提出的方法可以有效地正则化 INR 模型,缓解过拟合,并提高图像去噪性能。
Jan, 2024
本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征,结果证明,学习到的 latents 不仅捕捉到每个音素的发音特征,而且提高了适应能力,在 accened 测试基准上大幅优于基准模型。
Oct, 2022
本文提出了一种名为 IRCL 的伪排练式学习方法,其中通过将类不变表示与条件生成模型分离并与类特定表示共同使用,以学习顺序任务。该方法证明了在两个著名的连续学习基准上都比基于正则化和基于伪排练的方法更好,并成功地解决了灾难性遗忘问题。
Jan, 2021