描述的任何事物分开
该研究介绍了一种语言查询音频源分离(LASS)任务,该任务通过基于目标源的自然语言查询(例如,“一个男人讲笑话,接着人们笑了”)从音频混合物中分离出目标源。为了解决这个问题,作者提出了一个名为 LASS-Net 的端到端神经网络,它能够共同处理声学和语言信息,并从音频混合物中分离出与语言查询一致的目标源。实验结果表明,LASS-Net 相较于基线方法有明显的提升,并展示了良好的泛化性能,表明其在实际场景中的潜力。
Mar, 2022
我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。
Jun, 2024
通用音频源分离旨在分离任意混音的音频源,无需特定领域(如语音或音乐),但其潜力受到限制,因为大多数现有研究关注主要是声音事件的混音,并且较小的训练数据集也限制了其监督学习的潜力。在这里,我们研究了一种单一的通用音频源分离(GASS)模型,它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对 GASS 模型进行了多样的任务评估。我们的强可分离性结果显示了 GASS 模型的可行性,声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而,GASS 模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了 GASS 模型的微调,并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外,所有微调模型均获得了其各自基准测试中的最先进结果。
Sep, 2023
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
Feb, 2020
利用自监督学习方法,通过自然语言查询基于无标注视频和音频对进行音频源分离的学习,以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合,其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督,并在推理阶段能够分离声音,即使没有目标检测器或文本标签。
Mar, 2023
本研究提出了一种基于 Transformer 的声音事件检测系统,采用三组件流水线的整体解决方案来训练一个统一的音频源分离器,该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离,并能在零样本情况下学习将音频源进行分离。
Dec, 2021
现有的机器学习研究在单声道视听分离方面取得了令人期待的结果。然而,大多数视听分离方法只考虑声源是什么而不考虑其位置。这在虚拟实境 / 增强实境场景中可能成为一个问题,因为用户需要能够区分不同方向上的相似音频源。为解决这一限制,我们将视听分离推广到空间音频分离,并提出了一种基于位置引导的音频 - 视觉空间音频分离器 (LAVSS)。LAVSS 受到空间音频和视觉位置之间的相关性的启发。我们引入了双耳音频中包含的相位差作为空间线索,并利用发声对象的位置表示作为额外的模态指导。我们还采用多级跨模态注意力来进行视觉 - 位置的协作,并利用预训练的单声道分离器从丰富的单声道音频中转移知识以提高空间音频分离效果。在 FAIR-Play 数据集上的实验证明了所提出的 LAVSS 在视听分离方面的优越性。
Oct, 2023
通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象,即使没有独立观察 / 听到这些对象,从而学习从未标记的视频中的音频可分离对象模型,然后利用视觉背景在新视频中执行音频源分离。
Apr, 2018
本研究从深度学习和计算听觉场景分析(CASA)的角度来处理与说话者无关的单声道扬声器分离问题。研究中,我们将多扬声器分离任务分解为同时分组和顺序分组两个阶段,并使用神经网络实现这两个阶段的分离。实验表明,这种方法在小型模型的情况下取得了最先进的结果。
Apr, 2019