BriefGPT.xyz
Ask
alpha
关键词
multi-modal knowledge
搜索结果 - 4
基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型
本文提出了一种新的插入式模块 X-adapter,用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中,以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。
PDF
a year ago
基于 CLIP 的细粒度文本图像人员再识别
提出了一种基于 CLIP 驱动的细粒度信息挖掘框架 (CFine),旨在为 TIReID 提供强大的多模态知识,通过细粒度信息挖掘,建立跨模态对齐,并在多个基准测试上显示了其优越的性能。
PDF
2 years ago
CVPR
CRIS: 基于 CLIP 推理的参考图像分割
本文提出了一种基于 CLIP 的终端到终端的指代图像分割框架(CRIS),该框架采用视觉语言解码器和对比学习实现文本到像素级特征的对齐,通过在三个基准数据集上的实验结果表明,该框架的性能显著优于现有方法。
PDF
3 years ago
CVPR
反事实型视觉问答:以因果关系审视语言偏见
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据
→
PDF
4 years ago
Prev
Next