BriefGPT.xyz
Ask
alpha
关键词
text-guided video temporal grounding
搜索结果 - 1
端到端多模式视频时间定位
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Capti
→
PDF
3 years ago
Prev
Next