关键词multi-grained alignments
搜索结果 - 2
- ICCV视频文本检索的统一粗细对齐
通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型 UCoFiA,显著优于以前的基于 CLIP 方法,在多个视频 - 文本检索基准上表现出了 2.4%,1.4%和 1.3%的文本到视频检索 R@1 改进。
- ICML多层次视觉语言预训练:将文本与视觉概念对齐
提出了一种名为 X-VLM 的多粒度视觉语言预训练方法,通过定位图像中的视觉概念并将其与文本进行对齐,实现了多粒度对齐,并将其应用于下游视觉语言任务中取得了优秀的效果,并超越了现有的最先进方法。