Jointist: 多乐器转录的联合学习及其应用
本文提出 Jointist,一种仪器感知的多仪器框架,可以从音频剪辑中转录、识别和分离多个乐器。Jointist 的新颖性质对于评估这种模型提出了新的视角,然而,在我们的实验中,该模型在多个下游任务上实现了性能的提升,包括转录,分离,下行拍检测,和弦识别和关键识别。
Feb, 2023
我们提出 JOIST 算法,使用音频文本配对输入和仅文本未配对输入训练流式级联编码器端到端模型。与以往的工作不同,我们探索了同时训练两种模态的联合训练方法,而不是预训练和微调。此外,我们使用了一种流式端到端模型,并增加了一个数量级的数据量,这些都是与以往工作相比的新颖之处。通过一系列去除研究,我们研究了不同类型的文本建模,包括如何建模文本序列的长度和适当的文本子单词单元表示。我们发现,与未训练文本的模型相比,针对 JOIST 的最佳文本表示方式可以相对提高 4-14% 的 WER,而且我们定量显示 JOIST 仍然具备流式处理的能力,这对用户体验很重要。
Oct, 2022
本文利用序列到序列传递学习的多任务自然语言处理模型,在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录,展示了其在低资源乐器的表现结果显著,同时保持了高质量的表现结果,是多任务自动音乐转录领域的强有力基线。
Nov, 2021
通过一个三合一的统一模型来对音频进行分离、转录和综合,采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系,从而实现零样本学习。
Aug, 2021
提出了一种使用大规模非配对文本来改善说话者对罕见单词的识别能力的训练方法 JEIT,它结合了端到端模型和内部语言模型训练,其中内部语言模型吸收非配对文本,接受 E2E 计算损失信息,从而提高 E2E 模型的性能。在 JEIT 过程中,MHAT 表现比 HAT 更佳,在 ILM 适应时更加稳定,此外,我们还提出了结合 JEIT 和 JOIST 的 CJJT 方法,它能更有效地实现语言模型的融合。
Feb, 2023
本文提出了一种新型的深度神经网络结构 Perceiver TF,用于多音轨音乐转录,通过引入分层扩展和额外的 Transformer 层来建模音频输入的时间 - 频率表示,从而实现 12 种乐器和声音的多任务学习,结果表明该系统在各种公共数据集上的性能优于现有的其他对手。
Jun, 2023
Timbre-Trap 是一个新型框架,通过利用音高和音色之间的强分离性,将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型,同时估计音高显著性和重建复杂谱系数,通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美,而只需要少量的带注释数据。
Sep, 2023