改进 Onsets 和 Frames 的对抗学习音乐转录

Jun, 2019

改进 Onsets 和 Frames 的对抗学习音乐转录

Adversarial Learning for Improved Onsets and Frames Music Transcription

Jong Wook Kim, Juan Pablo Bello

TL;DR使用对抗训练方案来处理多标签预测的音乐转录模型，可显著提高模型的准确性和置信度。

Abstract

automatic music transcription is considered to be one of the hardest problems in music information retrieval, yet recent deep learning app

automatic music transcription deep learning adversarial training multi-label predictions music information retrieval

发现论文，激发创造

Onsets and Frames: 双目标钢琴转录

用深度卷积和递归神经网络来提高多声部钢琴音乐转录，在预测音符的开始和结束时间方面取得了相对 100% 的提升，并且通过预测标准化音频的相对速度得到更自然的转录结果。

Oct, 2017

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

黑盒音频系统的有针对性对抗样本

本文采用进化算法和梯度估计两种方法，结合黑盒攻击策略（不知道模型结构和参数）实现对语音自动识别系统的针对性攻击，最终在保持音频文件相似度为 94.6% 的前提下，实现了 89.25% 的针对性攻击相似度。

May, 2018

音频鲁棒隐私保护的对抗表示学习

本研究提出了一种新的对抗性训练方法，用于生成语音含量音频的不变潜在表示，以有效防止从录音的潜在特征检测语音活动，缓解了隐私泄露的问题。

Apr, 2023

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

通过领域对抗训练学习的稳健音乐表示的音乐自动标记

采用领域对抗训练 (DAT) 方法，结合合成噪声音乐数据和无标签噪声音乐数据，提高了音乐自动标记的性能，并加强了模型在不同噪声环境下的泛化能力。

Jan, 2024

音频对抗样本：针对语音转文本的有目标攻击

利用白盒迭代优化算法针对 Mozilla 的 DeepSpeech 实现针对性的音频对抗性样本进行攻击，成功率为 100％，这种攻击的可行性引入了研究对抗性样本的新领域。

Jan, 2018

训练要有所侧重：自监督语音识别模型的针对性、可迁移对抗样本

该论文研究了定向对抗攻击自我训练的自动语音识别模型，发现现代自我训练的自动语音识别模型容易受到对抗攻击的影响，进一步揭示了现代 ASR 体系结构的安全威胁。

Sep, 2022

无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

提出了一种无需注释数据的音乐自动转录模型，通过利用可扩展的合成音频进行预训练和对抗性域混淆，实现了比使用混合注释真实音频数据学习时更高的准确性，在 AMT 研究领域中，揭示了这种方法的可扩展性和面临的挑战。

Dec, 2023