BriefGPT.xyz
Ask
alpha
关键词
textvr dataset
搜索结果 - 1
一个带有阅读理解的大型跨模态视频检索数据集
提出了一种新的跨模态视频检索数据集 TextVR,它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频
→
PDF
a year ago
Prev
Next