关键词cross-modal alignment
搜索结果 - 52
- ECCV以精细化理解带来更丰富的视野:基于隐含模态对文本人物检索的对齐PDF2 years ago
- ICLR多模态表示学习的遮蔽视觉和语言建模PDF2 years ago
- 通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUGPDF2 years ago
- LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练PDF2 years ago
- MM基于常识的快速视频时间对齐细节文本对齐学习PDF2 years ago
- ECCV视觉语言预训练的单流多级对齐PDF2 years ago
- CVPR三重对比学习视觉语言预训练PDF2 years ago
- 使用实体提示进行语言及视频预训练PDF3 years ago
- KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练PDF3 years ago
- MM结构化的多模态特征嵌入和对齐 —— 面向图像 - 句子检索PDF3 years ago
- EMNLP通过人类凝视引导的序列跨模态对齐生成图像描述PDF4 years ago
- ECCV基于属性的人物搜索的共生对抗学习PDF4 years ago
Next