视频中响物定位的时空记忆网络
提出了一种音频 - 视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为,并引入了递归注意网络来递归地专注于对象,从而形成更准确的注意区域,通过利用音频 - 视觉模态的空间线索和递归地关注对象,我们的方法可以实现更稳健的声源定位,全面的实验结果表明了该方法优于现有方法。
Aug, 2023
提出了一种用于半监督视频对象分割的新型解决方案,通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战,从而实现了最先进的性能。
Apr, 2019
本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构,实现音频和视觉之间的信息检索和图像中声音对象的准确定位,同时探究了基于 AVC 任务的网络架构设计方法,并与此相关的数据准备问题进行了讨论。
Dec, 2017
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统,使用自监督方法来实现跨模态的语音定位,其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。
Oct, 2019
本文介绍了一种用于视频目标检测的空间 - 时间记忆网络,其核心是一种新颖的空间 - 时间记忆模块,用于模拟长期的时间外观和动态运动,并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果,并且文章的实验表明了不同设计选择的贡献。
Dec, 2017
本研究提出了一种两阶段学习框架,利用单一场景下的候选声音定位结果来学习鲁棒的对象表示,并通过引用预学习的对象知识生成了类感知对象本地化映射,在各种混音声音场景下选择声音和视觉对象类别分布的匹配,其中视听一致性被视为自我监督信号。实验结果表明,我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。
Oct, 2020
该研究提出了一种空间 - 时间多层次关联框架,以解决现有半监督视频对象分割方法在空间特征匹配和时空特征建模方面的限制,并通过空间 - 时间记忆库实现充分的目标交互和高效的并行处理,从而提高视频对象分割的效果。
Apr, 2024
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
Jun, 2024