学习质量感知的视频目标分割动态内存
通过将对象特征汇总成为动态查询,并将其作为动态滤波器用于掩膜预测,我们提出了一种名为 QMVOS 的查询调节方法,从而为模型提供高级描述和对象级感知。通过查询间的注意力实现高效有效的多对象交互,这一方法对基于内存的半监督视频对象分割方法带来了显著的改进,并在标准 SVOS 基准上实现了竞争性能。
Mar, 2024
该研究提出 REMN,一种稳健高效的记忆网络,用于半监督视频物体分割,通过引入本地注意机制和动态记忆库,解决了非局部匹配和高时间冗余的问题,实验表明 REMN 在 DAVIS 2017 和 YouTube-VOS 2018 上均取得最新的成果,具有较高的推理速度和相对较少的计算资源。
Apr, 2023
提出了一种用于半监督视频对象分割的新型解决方案,通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战,从而实现了最先进的性能。
Apr, 2019
本文提出了一种层次化记忆匹配网络(HMMN),通过两个先进的记忆读取模块,我们可以在多个尺度上执行记忆读取并利用时间平滑,从而实现准确的内存检索,进而预测详细的对象遮罩。在 DAVIS 2016/2017,YouTube-VOS 2018/2019 验证集以及 DAVIS 2017 测试集上,我们的网络都取得了最先进的性能。
Sep, 2021
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型 DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
本研究提出一种视频故事问答架构,名为 Multimodal Dual Attention Memory (MDAM)。使用双重注意机制,结合自我注意力和注意力机制在场景帧和字幕中学习潜在的概念,并在双重注意力处理后执行多模态融合,从而学习从整个视频内容的抽象中推断出高级视觉语言联合表示。在 PororoQA 和 MovieQA 数据集上,该模型均取得了新的最优结果,并通过消融研究验证了双重注意机制与后期融合的最佳性能。
Sep, 2018
本文介绍了一种用于视频目标检测的空间 - 时间记忆网络,其核心是一种新颖的空间 - 时间记忆模块,用于模拟长期的时间外观和动态运动,并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果,并且文章的实验表明了不同设计选择的贡献。
Dec, 2017
该研究论文提出了一种局部匹配的解决方案,即区域性记忆网络(RMNet),用于半监督视频对象分割技术,旨在消除空间 - 时间记忆网络中的全局匹配误差并提高计算效率。实验表明, RMNet 在 DAVIS 和 YouTube-VOS 数据集上的表现优于现有的技术。
Mar, 2021
提出了一种基于运动 - 外观共现记忆网络的视频问答方法,采用动态记忆网络和新机制,在长序列中推断不同问题所需的帧数,利用多级上下文事实构建时间表示,并在 TGIF-QA 数据集上表现出明显优越性。
Mar, 2018
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024