BriefGPT.xyz
Ask
alpha
关键词
image-text modeling
搜索结果 - 3
何时称为基础模型的基础模型
最近,在医学领域中,有几项研究报道了利用像推特和 PubMed 这样的在线数据来源中的图像对基础模型进行微调以进行图像 - 文本建模。基础模型是能够通过在非常广泛的数据集上训练来学习特定领域上下文的大型深度人工神经网络。通过验证,我们观察到
→
PDF
10 months ago
MAMO: 面向细粒度视觉语言表征学习的遮蔽多模态建模
本文提出一种联合掩蔽多模态建模方法 (MAMO),通过联合掩盖图像 - 文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉 - 语言任务中的最新成果。
PDF
2 years ago
PhotoChat: 一份包含图像分享行为的人类对话数据集,用于联合图像 - 文本建模
本研究提出了一个新的人对人对话数据集 - PhotoChat,该数据集是第一个关注于在线消息中照片分享行为的数据集,其中包含 12k 个对话。基于此数据集,我们提出了两个任务以促进图像文本建模的研究:一个是用于预测下一个对话回合中是否打算分
→
PDF
3 years ago
Prev
Next