基于语言引导的三模态一致性音视频源分离

CVPRMar, 2023

基于语言引导的三模态一致性音视频源分离

Language-Guided Audio-Visual Source Separation via Trimodal Consistency

Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon...

TL;DR利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Abstract

We propose a self-supervised approach for learning to perform audio source separation in videos based on natural language queries, using only unlabeled video and audio pairs as training data. A key challenge in this task is learning to associate the linguistic description of a sound-em

self-supervised learning audio source separation natural language queries vision-language foundation models audio-visual separation

发现论文，激发创造

基于双模态语义相似性的弱监督音频分离

通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态（即音频）中使用条件模态（即语言）中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明，如果我们可以访问两个模态之间（即 CLAP）的预训练联合嵌入模型，这是可以实现的。另外，我们还在两个基本场景中将我们的框架纳入进行了改进，通过减小训练样本和测试样本之间的分布差异，我们的方法显著提高了纯无监督基准的性能，并且在信噪比（SDR）方面可以实现 71％的提升，达到了有监督学习性能的 97.5％。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身，可以进一步提高性能，使其成为强大的半监督音频分离框架。

Apr, 2024

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

T-VSL: 混合环境下的文本引导视听源定位

我们提出了一种利用 Tri-modal joint embedding 模型通过文本模态作为中间特征引导，在多源混合中分离语义音视源对应关系的 T-VSL 框架，该方法在训练期间通过预测混合中声音实体的类来引导细粒度的音视源对应关系的分离，展现了在测试期间对未见过的类别具有有希望的零 - shot 迁移能力。在 MUSIC、VGGSound 和 VGGSound-Instruments 数据集上的大量实验证明了该方法相对于最先进方法的显著性能提升。

Apr, 2024

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

通过观察未标记的视频学习分离物体声音

通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象，即使没有独立观察 / 听到这些对象，从而学习从未标记的视频中的音频可分离对象模型，然后利用视觉背景在新视频中执行音频源分离。

Apr, 2018

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018