BriefGPT.xyz
大模型
Ask
alpha
关键词
long-term modeling
搜索结果 - 3
DeVOS: 流引导的可变形变压器用于视频对象分割
结合基于记忆的匹配和运动引导传播的 DeVOS(可变形视频对象分割)架构,用于视频对象分割,实现稳定的长期建模和强大的时间一致性。
PDF
2 months ago
VideoMamba:高效视频理解的状态空间模型
提出了一种名为 VideoMamba 的基于 Mamba 的视频理解方法,克服了现有 3D 卷积神经网络和视频变换器的限制,通过线性复杂度运算实现了高效的长视频建模,同时展示了在视觉域上的可扩展性、在短期行动识别上的敏感性、在长期视频理解上
→
PDF
4 months ago
MeMViT: 基于记忆增强的多尺度视觉 Transformer,用于有效的长期视频识别
本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略,基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT,可以比传统方法少使用 99.5%的计算资源,且在各种情况下实现了状态下最先进的识别
→
PDF
2 years ago
Prev
Next