BriefGPT.xyz
大模型
Ask
alpha
关键词
image-text tasks
搜索结果 - 2
X$^2$-VLM:图像和语言任务的多功能预训练模型
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模
→
PDF
2 years ago
视觉 - 语言预训练:基础、最新进展和未来趋势
本文研究多模态智能领域的视觉 - 语言预训练方法,分为三类分类,包含图像 - 文本、核心计算机视觉和视频 - 文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
PDF
2 years ago
Prev
Next