BriefGPT.xyz
Ask
alpha
关键词
vision language
搜索结果 - 3
ICML
多层次视觉语言预训练:将文本与视觉概念对齐
提出了一种名为 X-VLM 的多粒度视觉语言预训练方法,通过定位图像中的视觉概念并将其与文本进行对齐,实现了多粒度对齐,并将其应用于下游视觉语言任务中取得了优秀的效果,并超越了现有的最先进方法。
PDF
3 years ago
ACL
基于前提的多模态推理:联合文本与视觉线索的条件推断
本文提出了一种基于 Premise 的多模态推理任务,建立了 PMR 数据集用于评价多模态推理模型的性能。
PDF
3 years ago
VinVL: 重访视觉表征在视觉语言模型中的应用
本文通过提出一种改进的物体检测模型,生成具有更丰富视觉对象和概念的物体中心表示,从而显着提高了视觉语言任务的性能,并在七个公共基准测试中创造了新的最先进结果。
PDF
4 years ago
Prev
Next