使用集成时间预测误差进行无监督符号音乐分段

Jul, 2022

使用集成时间预测误差进行无监督符号音乐分段

Unsupervised Symbolic Music Segmentation using Ensemble Temporal Prediction Errors

Shahaf Bassan, Yossi Adi, Jeffrey S. Rosenschein

TL;DR该论文提出了一种基于时间预测误差模型集成的无监督方法实现了符号音乐分割，该方法应用于 Essen Folksong 数据集上达到了最前沿的性能，其中使用了峰值检测算法选择段落候选，并聚合多个模型的预测达到最终的分割结果，但与有监督方法相比，该方法的表现仍有提升空间。

Abstract

symbolic music segmentation is the process of dividing symbolic melodies into smaller meaningful groups, such as melodic phrases. We proposed an unsupervised method for segmenting symbolic music. The proposed model is based on an ensemble of →

symbolic music segmentation unsupervised method temporal prediction error models peak detection algorithm state-of-the-art performance

发现论文，激发创造

具有时间预测误差的盲音素切分

该研究论文提出了一种基于序列预测模型的新型无监督算法，利用训练预测语音特征的模型的错误分析，从 MFCC 空间中学习语音动态，并从预测误差的局部最大值中发现语音边界，以提高语音识别准确性。该方法在 TIMIT 数据集上得到了有效评估和改进。

Aug, 2016

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

基于分段经验输出分布匹配的无监督语音识别

本研究提出了一种完全无监督的学习算法，可在不使用标记数据的情况下训练语音识别系统，其关键在于使用音位语言模型和输入话语。该算法在解决两个子问题 (即学习给定音位划分边界下的音位分类器和更新音位边界) 上交替进行，并在 TIMIT 数据集上获得了令人满意的性能提升。

Dec, 2018

基于图形表示和变点检测方法的符号音乐结构分析

本研究提出了三种方法，其中两种是基于图形的新颖算法，通过形式或结构对符号音乐进行分割。使用两个公共数据集对其进行了消融研究，发现使用图形表示对结构进行符号音乐编码，并计算从图中获取的邻接矩阵的新颖性可以很好地表示符号音乐的结构，同时无需提取其特征。我们成功实现了在线无监督变点检测方法，F_1 值为 0.5640，容忍间隔为 1 拍，本研究希望这些方法能用于改进其他音乐信息检索任务。

Mar, 2023

Pitchclass2vec: 用和弦嵌入实现的音乐结构划分

本文介绍一种基于符号和弦标注的新型音乐分割方法，即 pitchclass2vec，使用自然语言处理技术和定制编码将其嵌入到连续的向量表示中。使用 LSTM 神经网络的算法，在音乐领域优于基于符号和弦注释的最新技术。

Mar, 2023

采用时间段的时序对齐进行视频 - 音乐推荐

研究视频配乐中的跨模式推荐问题，使用自我监督系统学习音乐和视频间的内容关联，提出了结构感知推荐方法，在训练与推断过程中，使用语义片段和不同的排序指标和分割方法来显著提高系统性能。

Jun, 2023

MusicBERT: 基于大规模预训练的符号音乐理解

本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解，并讨论了其中涉及的关键技术，包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明，MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。

Jun, 2021

MUSIC: 多段信息编码的自监督表征学习

本文提出了 MUlti-Segmental Informational Coding（MUSIC）方法，使用信息理论测量直接优化划分样本到不同语义聚类的多个划分部分，以避免最小解，证明了 MUSIC 比最相关的 Barlow Twins 和 VICReg 方法在 ImageNet 分类方面线性探测时具有更好的结果。

Jun, 2022

N-Gram 无监督复合和特征注入以提升符号音乐理解能力

应用深度学习技术对符号音乐进行理解的第一步是将音乐作品（主要是 MIDI 格式）转换为预定义令牌的序列，如音符音高、音符速度和和弦。然后，将这些序列输入神经序列模型以完成特定任务。在本文中，我们提出了一种新的方法 ——NG-Midiformer，用于理解符号音乐序列，该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列，然后使用我们的 N-gram Transformer 编码器，该编码器能够有效地融合 N-gram 信息，以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息，并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性，并在一系列音乐理解下游任务中实现了最先进的性能。

Dec, 2023

无监督的词语分割利用时间梯度伪标签

提出了一种基于深度自监督特征的无监督词语分割的伪标签策略，通过利用特征嵌入的时间渐变幅度来定义单帧词性的伪标签，并用线性分类器将嵌入映射为伪标签，进而预测出每一帧的词性，试验结果表明该方法在两个数据集上明显优于以前的所有方法。

Mar, 2023