AudioSlots: 一种以时间块为中心的音频分离生成模型

May, 2023

AudioSlots: 一种以时间块为中心的音频分离生成模型

AudioSlots: A slot-centric generative model for audio separation

Pradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf

TL;DR本文提出了一种基于 slot 的生成模型，用于音频领域的盲源分离，采用 Transformer 架构的编码器学习将混合音频频谱映射到一组无序的独立源嵌入，采用空间广播解码器学习从源嵌入生成源频谱。通过无需监督学习的方式，在 Libri2Mix 语音分离方面实现了概念验证。

Abstract

In a range of recent works, object-centric architectures have been shown to be suitable for unsupervised scene decomposition in the vision domain. Inspired by these methods we present AudioSlots, a slot-centric generative model for →

audio blind source separation generative model transformer architecture unsupervised learning

发现论文，激发创造

音频中无监督的音乐对象发现

我们提出了一种新的方法，将 SlotAttention 结构应用于音频领域，实现了无监督的音乐分解。我们介绍了一个基于频谱图的多对象音乐数据集，用于评估西方调性音乐上的对象中心学习。MusicSlots 在无监督的音符发现上表现良好，并在监督音符属性预测任务上优于几种常用对比方法。

Nov, 2023

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020

基于对象的学习与槽混合模块

本研究提出一种基于高斯混合模型的可学习聚类方法，将物体中心化情景建模，显著优于 Slot Attention 方法，在集合属性预测任务中取得了最先进的效果。

Nov, 2023

基于 Slot Attention 的物体中心场景生成

提出了一种将 slot attention 与分层 VAE 框架结合的生成模型 Slot-VAE，其能够生成具有高质量和准确的场景结构的样本效果优于基于 slot attention 的生成模型。

Jun, 2023

不变槽注意力机制：基于槽中心参考系的物体发现

本文介绍了一种通过基于槽的神经网络、空间对称和基于槽的参考帧来提高目标探测的数据效率的方法，并通过多个合成和真实场景以及挑战性的数据集进行了评估和实验。

Feb, 2023

SlotDiffusion: 以扩散模型实现以物体为中心的生成建模

本研究聚焦于提高物体图像生成的关键点到图像解码，为了达到高质量的视觉生成，提出了一种基于对象中心潜在扩散模型 SlotDiffusion，该模型在六个数据集上表现优异，并可用于现有的用于视频预测质量和下游时间推理任务的对象中心动力学模型，同时还展示了该模型和自监督预训练图像编码器在非约束性现实数据集上的可扩展性。

May, 2023

使用生成先验进行无监督音频源分离

通过将生成先验训练于各个单独的源上，利用梯度下降优化方法同时在这些源特定的潜在空间中搜索，以有效地恢复各个成分来源，并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计，我们针对语音数字和乐器数据集的实证研究表明，与传统的与最先进的无监督基线相比，我们的方法的有效性。

May, 2020

SlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟

本文介绍了一种基于 SlotFormer 的 Transformer 自回归模型，利用学习到的目标中心表示来模拟物体间的关系，成功地应用于视频预测和 VQA 等多个领域，并表明它作为模型为基础的规划世界模型的能力与针对该任务专门设计的方法相媲美。

Oct, 2022

分离关注力：具有上下文语境的无监督多物体发现

本文介绍了一种无监督学习方法，通过将视觉场景分割为独立运动区域并生成多模式表示，来实现多物体运动分割。该方法基于 Slot Attention 进行生成对抗网络设计，其优于最近的无监督多物体分割方法，同时速度快且不需要显式正则化。

Apr, 2023

SPOT: 自身训练的基于补丁顺序置换的自回归 Transformer 的物体中心学习

非监督式物体中心学习中引入了两个新技术：一种基于注意力的自我训练方法，通过从解码器到编码器提取出优越的基于槽的注意力掩码来增强物体分割；一种创新的自回归变换器中的补丁顺序排列策略，加强了槽向量在重构中的作用。这些策略的有效性在实验证明了该方法明显优于以往的基于槽的自编码器方法，特别是在处理复杂的真实图像时。具体实现代码请参考此网址。

Dec, 2023