May, 2023

AudioSlots: 一种以时间块为中心的音频分离生成模型

TL;DR本文提出了一种基于 slot 的生成模型,用于音频领域的盲源分离,采用 Transformer 架构的编码器学习将混合音频频谱映射到一组无序的独立源嵌入,采用空间广播解码器学习从源嵌入生成源频谱。通过无需监督学习的方式,在 Libri2Mix 语音分离方面实现了概念验证。