用深度卷积和递归神经网络来提高多声部钢琴音乐转录,在预测音符的开始和结束时间方面取得了相对 100% 的提升,并且通过预测标准化音频的相对速度得到更自然的转录结果。
Oct, 2017
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
本文采用进化算法和梯度估计两种方法, 结合黑盒攻击策略(不知道模型结构和参数)实现对语音自动识别系统的针对性攻击, 最终在保持音频文件相似度为 94.6% 的前提下,实现了 89.25% 的针对性攻击相似度。
May, 2018
本研究提出了一种新的对抗性训练方法,用于生成语音含量音频的不变潜在表示,以有效防止从录音的潜在特征检测语音活动,缓解了隐私泄露的问题。
Apr, 2023
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
Jun, 2020
本文介绍了一种新的音乐源分离算法,使用对抗训练让分离器的输出更加真实,并取得了对于歌声分离的较好效果。
采用领域对抗训练 (DAT) 方法,结合合成噪声音乐数据和无标签噪声音乐数据,提高了音乐自动标记的性能,并加强了模型在不同噪声环境下的泛化能力。
Jan, 2024
利用白盒迭代优化算法针对 Mozilla 的 DeepSpeech 实现针对性的音频对抗性样本进行攻击,成功率为 100%,这种攻击的可行性引入了研究对抗性样本的新领域。
Jan, 2018
该论文研究了定向对抗攻击自我训练的自动语音识别模型,发现现代自我训练的自动语音识别模型容易受到对抗攻击的影响,进一步揭示了现代 ASR 体系结构的安全威胁。
Sep, 2022
提出了一种无需注释数据的音乐自动转录模型,通过利用可扩展的合成音频进行预训练和对抗性域混淆,实现了比使用混合注释真实音频数据学习时更高的准确性,在 AMT 研究领域中,揭示了这种方法的可扩展性和面临的挑战。
Dec, 2023