BriefGPT.xyz
大模型
Ask
alpha
关键词
vision-language fusion
搜索结果 - 3
基于 CLIP 的提示视觉语言融合的行人属性识别
将行人属性识别问题(PAR)构建为视觉语言融合问题,充分利用行人图像与属性标签之间的关系,在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络,并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系,最后采
→
PDF
7 months ago
CVPR
基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习
本研究提出了一种基于视频帧的行人属性识别方法,将视觉和语言信息融合,使用 CLIP 模型进行特征提取和语言嵌入,通过多模态交互学习实现行人属性预测。
PDF
a year ago
EMNLP
学习使用 Denotation Graph 表示图片和文本
本文提出利用暗示的视觉引导表达学习表示,自动地从图像和文本的数据集中挖掘出的结构关系,用于多模态学习模型中的视觉语言融合任务,证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。
PDF
4 years ago
Prev
Next