关键词cross-modal alignment
搜索结果 - 52
- 对广告图像与文本进行对齐以实现准确的跨模态赞助搜索PDF9 months ago
- 基于提示的上下文和领域感知预训练:视觉与语言导航PDF10 months ago
- ICCV高保真文本引导的 3D 人脸生成与操作仅通过图像PDF10 months ago
- 多模态大语言模型的位置增强视觉指令调整PDF10 months ago
- ICCV基于地点实体的自适应预训练技术用于视觉与语言导航PDF10 months ago
- 语言引导扩散模型用于视觉定位PDFa year ago
- 释放文本的想象力:通过探索文字的力量实现文本到图像的人员检索的新框架PDFa year ago
- 视觉语言预训练的全局和局部语义补全学习PDFa year ago
- ACLManagerTower:聚合单模态专家的洞见,用于视觉语言表示学习PDFa year ago
- IJCAI利用解耦概念化和集合对齐进行文本 - 视频检索PDFa year ago
- 医学视觉语言预训练中的多任务配对掩蔽与对齐建模PDFa year ago
- SoftCLIP: 更柔和的跨模态对齐增强了 CLIPPDFa year ago
- CVPR对比学习中的多模态表示再探讨:从块和标记嵌入到有限离散标记PDFa year ago
- CVPR文本到图像的跨模态隐含关系推理和对齐的人物检索PDFa year ago
- CVPRCVT-SLR: 对比视觉 - 文本变换及变分对齐应用于手语识别PDFa year ago
- TOT: 多模式仇恨检测的拓扑感知最优输运PDFa year ago
- CVPRMM-Diffusion:学习多模态扩散模型用于联合音频和视频生成PDF2 years ago
- CVPR利用语义完形学习进行视觉语言预训练的漏洞填补PDF2 years ago
- EMNLP面向弱监督时空语言联系的细粒度语义对齐网络PDF2 years ago
- 基于 CLIP 的细粒度文本图像人员再识别PDF2 years ago