BriefGPT.xyz
Ask
alpha
关键词
cross-modal video-to-text matching
搜索结果 - 1
CVPR
密集视频字幕生成与跨模态记忆检索
通过使用外部记忆库和跨模态视频 - 文本匹配方法,我们提出了一种新的框架来解决密集视频字幕的挑战,实现了事件定位和事件字幕任务的自动化。实验结果表明,在 ActivityNet Captions 和 YouCook2 数据集上,我们的模型表
→
PDF
3 months ago
Prev
Next