Jul, 2024

语义分组网络用于音频源分离

TL;DR最近,音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为SGN的新型语义分组网络,可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN通过可学习的声音类别标记将按类别聚合声源特征,然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验,结果表明我们的SGN明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。