音频中无监督的音乐对象发现

Nov, 2023

Unsupervised Musical Object Discovery from Audio

Joonsu Gha, Vincent Herrmann, Benjamin Grewe, Jürgen Schmidhuber, Anand Gopalakrishnan

TL;DR我们提出了一种新的方法，将 SlotAttention 结构应用于音频领域，实现了无监督的音乐分解。我们介绍了一个基于频谱图的多对象音乐数据集，用于评估西方调性音乐上的对象中心学习。MusicSlots 在无监督的音符发现上表现良好，并在监督音符属性预测任务上优于几种常用对比方法。

Abstract

Current object-centric learning models such as the popular SlotAttention architecture allow for unsupervised visual scene decomposition. Our novel MusicSlots method adapts SlotAttention to the →

object-centric learning unsupervised visual scene decomposition audio domain music decomposition spectrogram-based multi-object music dataset

发现论文，激发创造

AudioSlots: 一种以时间块为中心的音频分离生成模型

本文提出了一种基于 slot 的生成模型，用于音频领域的盲源分离，采用 Transformer 架构的编码器学习将混合音频频谱映射到一组无序的独立源嵌入，采用空间广播解码器学习从源嵌入生成源频谱。通过无需监督学习的方式，在 Libri2Mix 语音分离方面实现了概念验证。

May, 2023

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020

无监督的条件槽注意力用于对象为中心的学习

本研究提出了一种基于无监督条件化槽注意力和概率槽字典（PSD）的方法，利用抽象的物体属性向量作为关键字、参数化高斯分布作为相应值，来学习特定的物体级别条件分布，并在多个下游任务中展示了其在物体发现、组合场景生成和组合视觉推理方面的优势。在物体发现任务中，我们的方法表现出相似或更好的性能，并在组合视觉推理的少样本适应性任务中显著提高了场景构成能力。

Jul, 2023

优化查询以改善对象中心学习

本论文提出了一种新方法 Bi-level Optimized Query Slot Attention，利用可学习的查询初始化 Slot-Attention，配合双层优化方法，实现了在无监督图像分割和重构中最先进的结果，并展示了其在概念绑定和零样本学习中的巨大潜力。

Oct, 2022

基于对象的学习与槽混合模块

本研究提出一种基于高斯混合模型的可学习聚类方法，将物体中心化情景建模，显著优于 Slot Attention 方法，在集合属性预测任务中取得了最先进的效果。

Nov, 2023

掩码式多查询槽注意力用于无监督对象发现

通过利用 DINO ViT 特征的集合查询表示来重建输入特征，我们提出了一种基于物体为中心的方法，通过遮罩输入特征，有选择性地忽略背景区域，以便模型在重建阶段更关注显著对象。此外，我们将 slot attention 拓展为多查询方法，使模型学习多套槽，产生更稳定的遮罩。我们在 PASCAL-VOC 2012 数据集上的实验结果和验证显示了每个组件的重要性，并突出了它们的组合如何不断改善物体定位。

Apr, 2024

不变槽注意力机制：基于槽中心参考系的物体发现

本文介绍了一种通过基于槽的神经网络、空间对称和基于槽的参考帧来提高目标探测的数据效率的方法，并通过多个合成和真实场景以及挑战性的数据集进行了评估和实验。

Feb, 2023

分离关注力：具有上下文语境的无监督多物体发现

本文介绍了一种无监督学习方法，通过将视觉场景分割为独立运动区域并生成多模式表示，来实现多物体运动分割。该方法基于 Slot Attention 进行生成对抗网络设计，其优于最近的无监督多物体分割方法，同时速度快且不需要显式正则化。

Apr, 2023

语义与时间关联：视频中自监督目标中心学习

自我监督方法在学习高层语义和低层时间对应方面取得了显著进展，本文在此基础上进一步探索了整合这两个特征以增强以对象为中心的表示的可能性。我们提出了一种新颖的语义感知遮蔽插槽注意力模型，通过融合语义特征和对应关系图，有效地识别多个对象实例，达到了在无监督视频对象发现和密集标签传播任务上的有希望结果，展示了以对象为中心的分析的潜力。

Aug, 2023

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020