一种统一的音视频学习框架：局部化、分离与识别

May, 2023

一种统一的音视频学习框架：局部化、分离与识别

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

Shentong Mo, Pedro Morgado

TL;DR该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

Abstract

The ability to accurately recognize, localize and separate sound sources is fundamental to any audio-visual perception task. Historically, these abilities were tackled separately, with several methods developed independently for each task. However, given the interconnected nature of

audio-visual perception source localization source separation oneavm joint learning

发现论文，激发创造

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

发出声音的物体

本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构，实现音频和视觉之间的信息检索和图像中声音对象的准确定位，同时探究了基于 AVC 任务的网络架构设计方法，并与此相关的数据准备问题进行了讨论。

Dec, 2017

音频视觉预测编码引导的声源分离

本论文提出了一种参数高效且有效的音频 - 视觉预测编码方法，该方法使用 ResNet-based 视频分析网络和声音分离网络提取音频特征，融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差，同时还开发了有效的自监督学习策略。

Jun, 2023

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

利用自监督运动表示进行视觉引导的声源分离和定位

本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Apr, 2021

用于混音声源定位的音视频分组网络

本文提出了一种 AVGN 网络，通过可学习的音频 - 视觉类别权重直接学习每个音频源的语义特征，可以同时定位多个音频源，达到了先进的音响目标定位效果。

Mar, 2023

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023