BriefGPT.xyz
大模型
Ask
alpha
关键词
image and text
搜索结果 - 3
宣传单广告上的精细化产品分类
本文研究使用不同欧洲零售商家广告宣传中收集的宣传单图像,构建了一个由 41.6k 手动注释的 832 种产品类别的细粒度产品识别数据集,最终展示了在图像分类任务中使用图像和文本作为输入具有提高识别性能的效果。
PDF
a year ago
AAAI
使用预训练单模型进行 SIMMC 2.0 的多模态交互
本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法,提出了一种结合图像和文
→
PDF
3 years ago
CPT:用于预训练视觉语言模型的彩色提示调节
该研究提出 Cross-modal Prompt Tuning,一种基于图像和文本的填空问题的视觉定位模型调参范式,能够在少量标记数据下使模型具有强大的零样本或少样本学习能力,实现了视觉与语言的理解与应用。
PDF
3 years ago
Prev
Next