视频中响物定位的时空记忆网络

Nov, 2021

Space-Time Memory Network for Sounding Object Localization in Videos

Sizhe Li, Yapeng Tian, Chenliang Xu

TL;DR提出了一种利用时间同步和关联的声音和视觉信息的网络，用于视频中声音对象的本地化

Abstract

Leveraging temporal synchronization and association within sight and sound is an essential step towards robust localization of sounding objects. To this end, we propose a space-time memory network for sounding object lo

sounding object localization spatio-temporal attention audio-visual scenes space-time memory network cross-modal representations

发现论文，激发创造

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

利用时空记忆网络进行视频对象分割

提出了一种用于半监督视频对象分割的新型解决方案，通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战，从而实现了最先进的性能。

Apr, 2019

发出声音的物体

本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构，实现音频和视觉之间的信息检索和图像中声音对象的准确定位，同时探究了基于 AVC 任务的网络架构设计方法，并与此相关的数据准备问题进行了讨论。

Dec, 2017

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

时空强化网络用于视频目标分割

最近，视频对象分割（VOS）网络通常使用基于记忆的方法：对于每个查询帧，通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能，但存在两个问题：1）具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2）像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题，我们首先提出在相邻帧之间生成一个辅助帧，作为查询帧的隐式短时间参考。随后，我们为每个视频对象学习一个原型，并在查询帧和记忆帧之间实施原型级匹配。实验证明，在 DAVIS 2017 上我们的网络优于最先进的方法，达到了 86.4% 的 J&F 分数，并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外，我们的网络的推理速度为 32+ FPS。

May, 2024

利用立体声音进行自监督的移动车辆跟踪

该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。

Oct, 2019

基于空间 - 时间对齐记忆的视频物体检测

本文介绍了一种用于视频目标检测的空间 - 时间记忆网络，其核心是一种新颖的空间 - 时间记忆模块，用于模拟长期的时间外观和动态运动，并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果，并且文章的实验表明了不同设计选择的贡献。

Dec, 2017

基于自监督视听匹配的区分性声音目标定位

本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Oct, 2020

视频目标分割的时空多层关联

该研究提出了一种空间 - 时间多层次关联框架，以解决现有半监督视频对象分割方法在空间特征匹配和时空特征建模方面的限制，并通过空间 - 时间记忆库实现充分的目标交互和高效的并行处理，从而提高视频对象分割的效果。

Apr, 2024

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024