Jointist: 多乐器转录的联合学习及其应用

Jun, 2022

Jointist: 多乐器转录的联合学习及其应用

Jointist: Joint Learning for Multi-instrument Transcription and Its Applications

Kin Wai Cheuk, Keunwoo Choi, Qiuqiang Kong, Bochen Li, Minz Won...

TL;DR该研究提出了一种多乐器转录、识别和分离的方法，并对其进行了评估。该方法可以作为其他音乐分析任务的预处理模块，并在下游任务中提供了有益的符号表示。

Abstract

In this paper, we introduce Jointist, an instrument-aware multi-instrument framework that is capable of transcribing, recognizing, and separating multiple musical instruments from an audio clip. Jointist consists of the instrument →

multi-instrument transcription recognition source separation music analysis

发现论文，激发创造

Jointist: 通过联合训练同时提高多乐器转录和音乐源分离

本文提出 Jointist，一种仪器感知的多仪器框架，可以从音频剪辑中转录、识别和分离多个乐器。Jointist 的新颖性质对于评估这种模型提出了新的视角，然而，在我们的实验中，该模型在多个下游任务上实现了性能的提升，包括转录，分离，下行拍检测，和弦识别和关键识别。

Feb, 2023

JOIST：一种联合语音和文本流模型用于自动语音识别

我们提出 JOIST 算法，使用音频文本配对输入和仅文本未配对输入训练流式级联编码器端到端模型。与以往的工作不同，我们探索了同时训练两种模态的联合训练方法，而不是预训练和微调。此外，我们使用了一种流式端到端模型，并增加了一个数量级的数据量，这些都是与以往工作相比的新颖之处。通过一系列去除研究，我们研究了不同类型的文本建模，包括如何建模文本序列的长度和适当的文本子单词单元表示。我们发现，与未训练文本的模型相比，针对 JOIST 的最佳文本表示方式可以相对提高 4-14% 的 WER，而且我们定量显示 JOIST 仍然具备流式处理的能力，这对用户体验很重要。

Oct, 2022

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

MT3: 多任务多轨音乐转录

本文利用序列到序列传递学习的多任务自然语言处理模型，在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录，展示了其在低资源乐器的表现结果显著，同时保持了高质量的表现结果，是多任务自动音乐转录领域的强有力基线。

Nov, 2021

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

JEIT: 语音识别的联合端到端模型和内部语言模型训练

提出了一种使用大规模非配对文本来改善说话者对罕见单词的识别能力的训练方法 JEIT，它结合了端到端模型和内部语言模型训练，其中内部语言模型吸收非配对文本，接受 E2E 计算损失信息，从而提高 E2E 模型的性能。在 JEIT 过程中，MHAT 表现比 HAT 更佳，在 ILM 适应时更加稳定，此外，我们还提出了结合 JEIT 和 JOIST 的 CJJT 方法，它能更有效地实现语言模型的融合。

Feb, 2023

基于时间 - 频率感知器的多轨音乐转录

本文提出了一种新型的深度神经网络结构 Perceiver TF，用于多音轨音乐转录，通过引入分层扩展和额外的 Transformer 层来建模音频输入的时间 - 频率表示，从而实现 12 种乐器和声音的多任务学习，结果表明该系统在各种公共数据集上的性能优于现有的其他对手。

Jun, 2023

多轨音乐变换器

提出了一种新型的多轨音乐表示方式，可以同时包含多种不同类型的乐器，并实现了基于音乐自注意力的实时即兴演奏，该方法在速度和内存占用方面都具有优势。

Jul, 2022

音色陷阱：一种用于不受乐器限制的音乐转录的低资源框架

Timbre-Trap 是一个新型框架，通过利用音高和音色之间的强分离性，将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型，同时估计音高显著性和重建复杂谱系数，通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美，而只需要少量的带注释数据。

Sep, 2023

高分辨率吉他转录通过领域适应

使用高分辨率钢琴转录模型训练新的吉他转录模型，从而在零样本情况下在 GuitarSet 上获得最先进的转录结果，改进了之前发表的方法。

Feb, 2024