XMem:基于 Atkinson-Shiffrin 记忆模型的长时视频对象分割
我们提出了一种新颖的半监督视频对象分割 (SSVOS) 模型 XMem++,通过引入永久记忆模块来改进现有的基于记忆的模型,在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一致的结果,并引入了一种迭代和基于注意力的帧建议机制来计算最佳的下一帧注释。此外,我们还介绍了一个新的数据集 PUMaVOS,该数据集覆盖了以前基准中未出现的新的挑战性用例。我们在具有挑战性的(部分和多类别)分割场景以及长视频上展示了 SOTA 性能,同时确保显著减少了任何现有方法的帧标注数量。
Jul, 2023
视频理解系统 MovieChat 利用大型语言模型和视频基础模型,通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。
Jul, 2023
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
Apr, 2024
通过提出一种新颖的,DET-R 风格的编码器 - 解码器架构,我们克服了长视频中有关小对象的数据特性所带来的挑战,并在两个复杂数据集上实现了最先进的性能。
Dec, 2023
本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略,基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT,可以比传统方法少使用 99.5%的计算资源,且在各种情况下实现了状态下最先进的识别准确率,尤其是在行动预测数据集方面。
Jan, 2022
通过限制记忆库的规模,我们在视频目标分割模块(VOS)中实现了显著的提高。这个过程平衡了帧的重要性和新鲜度,以维持一个有限容量的信息性记忆库,并降低了训练 - 推理过程中记忆长度的差异,从而在时间推理方面开辟了新的机遇。最终,我们通过 “RMem”(即 “R” 表示限制)将这些见解体现出来,这是一个简单而有效的在具有挑战性的 VOS 场景中取得卓越表现的 VOS 修改方法,并在目标状态变化方面(在 VOST 数据集上)和长视频方面(在长视频数据集上)建立了新的最佳性能。
Jun, 2024
本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战,包括短期记忆子网络和长期记忆子网络,通过图形学习框架提高局部区域间的可视一致性,在三个常用的数据集上取得了非常好的性能。
Mar, 2020
该研究提出 REMN,一种稳健高效的记忆网络,用于半监督视频物体分割,通过引入本地注意机制和动态记忆库,解决了非局部匹配和高时间冗余的问题,实验表明 REMN 在 DAVIS 2017 和 YouTube-VOS 2018 上均取得最新的成果,具有较高的推理速度和相对较少的计算资源。
Apr, 2023
提出两种方法以减少在线视频对象分割方法的内存需求,同时提高建模准确性和推广性,并实验结果表明这些方法可以提高在线视频对象分割模型的性能,增强其在长视频数据集上的鲁棒性。
Sep, 2023