描述与分离：基于语言查询的音频源分离

Mar, 2022

描述与分离：基于语言查询的音频源分离

Separate What You Describe: Language-Queried Audio Source Separation

Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao...

TL;DR该研究介绍了一种语言查询音频源分离（LASS）任务，该任务通过基于目标源的自然语言查询（例如，“一个男人讲笑话，接着人们笑了”）从音频混合物中分离出目标源。为了解决这个问题，作者提出了一个名为 LASS-Net 的端到端神经网络，它能够共同处理声学和语言信息，并从音频混合物中分离出与语言查询一致的目标源。实验结果表明，LASS-Net 相较于基线方法有明显的提升，并展示了良好的泛化性能，表明其在实际场景中的潜力。

Abstract

In this paper, we introduce the task of language-queried audio source separation (LASS), which aims to separate a target source from an audio mixture based on a natural language query of the target source (e.g., "a man tells a joke followed by people laughing"). A unique challenge in LASS is associated with the complexity of natural language description and

language-queried audio source separation lass-net end-to-end neural network acoustic and linguistic information generalization

发现论文，激发创造

描述的任何事物分开

通过自然语言查询实现了语言查询音频源分离（LASS），并为开放领域的音频分隔提供了 AudioSep 基础模型，展示了强大的分隔性能和令人印象深刻的零 - shot 推广能力。

Aug, 2023

基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能：DCASE Challenge 2024 任务 9

我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离（LASS）任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明，使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。

Jun, 2024

基于音频查询的音乐源分离

这篇论文提出了一种基于音频查询的音乐源分离方法，可以通过查询信号明确地编码源信息，以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。

Aug, 2019

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

弱标注数据源分离：一种计算听觉场景分析方法

本研究提出一种基于弱标注数据训练的源分离框架，利用 AudioSet 训练的音频事件检测系统，实现了对 527 种声音类别的分离，采用了 U-Net 结构，平均信噪比为 5.67dB。

Feb, 2020

基于查询学习和弱标注数据的零样本音频源分离

本研究提出了一种基于 Transformer 的声音事件检测系统，采用三组件流水线的整体解决方案来训练一个统一的音频源分离器，该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离，并能在零样本情况下学习将音频源进行分离。

Dec, 2021

GASS：使用大规模数据进行音频源分离泛化

通用音频源分离旨在分离任意混音的音频源，无需特定领域（如语音或音乐），但其潜力受到限制，因为大多数现有研究关注主要是声音事件的混音，并且较小的训练数据集也限制了其监督学习的潜力。在这里，我们研究了一种单一的通用音频源分离（GASS）模型，它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对 GASS 模型进行了多样的任务评估。我们的强可分离性结果显示了 GASS 模型的可行性，声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而，GASS 模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了 GASS 模型的微调，并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外，所有微调模型均获得了其各自基准测试中的最先进结果。

Sep, 2023

基于位置引导的视听空间音频分离

现有的机器学习研究在单声道视听分离方面取得了令人期待的结果。然而，大多数视听分离方法只考虑声源是什么而不考虑其位置。这在虚拟实境 / 增强实境场景中可能成为一个问题，因为用户需要能够区分不同方向上的相似音频源。为解决这一限制，我们将视听分离推广到空间音频分离，并提出了一种基于位置引导的音频 - 视觉空间音频分离器 (LAVSS)。LAVSS 受到空间音频和视觉位置之间的相关性的启发。我们引入了双耳音频中包含的相位差作为空间线索，并利用发声对象的位置表示作为额外的模态指导。我们还采用多级跨模态注意力来进行视觉 - 位置的协作，并利用预训练的单声道分离器从丰富的单声道音频中转移知识以提高空间音频分离效果。在 FAIR-Play 数据集上的实验证明了所提出的 LAVSS 在视听分离方面的优越性。

Oct, 2023

潜在自回归源分离

本论文介绍了一种名为 LASS 的矢量量化潜在自回归源分离方法，通过贝叶斯公式和构建离散概率密度函数来实现无需额外微调和修改现有模型即可将输入信号分离成其成分源，该方法在图像和音频分离方面表现出具有竞争力的结果。

Jan, 2023

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019