BriefGPT.xyz
Ask
alpha
关键词
language and vision models
搜索结果 - 3
LLVMs4Protest: 利用大型语言和视觉模型解读新闻中的抗议事件
大型语言和视觉模型已经改变了社会运动学者如何识别抗议活动并从多模态数据中提取关键的抗议属性。本文描述了我们如何通过对大规模预训练的转换器模型(包括 longformer 和 swin-transformer v2)进行微调,使用文本和图像数
→
PDF
7 months ago
CVPR
基于 CLIP 的开放集视频领域自适应框架 AutoLabel
本研究提出了一种基于预训练语言和视觉模型的 open-set 无监督视频域自适应方法,并引入了 AutoLabel 来发现和生成目标专有类别的类名,通过改进的 CLIP 模型可以有效地对目标专有的类别进行识别,并提高两个域之间分享类别的对齐
→
PDF
a year ago
ACL
FOIL it! 寻找图像和语言描述间的一个不匹配
本文通过提出 FOIL-COCO 数据集并进行实验,证明现有的语言与视觉模型在理解两种模态之间的互动方面存在缺陷,并需要使用更加细致的文本与图像关联方法进行改进。
PDF
7 years ago
Prev
Next