BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal correlations
搜索结果 - 2
CVPR
通向可泛化的视频片段检索:通过将视觉动态注入到图像 - 文本预训练中实现
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法 Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频 - 文本对齐,该方法在现有 VMR 方法的基础上
→
PDF
a year ago
多模式地理预训练方法
该研究提出了一种新颖的多模态地理语言模型 (MGeo) 用于查询 - POI 匹配,通过将地理信息视作一个新的模态,在提取多模态相关性的同时准确表示查询中的多个地理对象,提升了通用 PTMs 的查询 - POI 匹配能力。
PDF
a year ago
Prev
Next