BriefGPT.xyz
大模型
Ask
alpha
关键词
cross-modal pre-trained models
搜索结果 - 2
ICCV
DiffDis:将生成式扩散模型赋能跨模态辨别能力
在这篇论文中,我们提出了 DiffDis,通过扩展扩散过程,将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构,来解决图像 - 文本辨别任务。通过基于扩
→
PDF
a year ago
XGPT: 图像字幕跨模态生成预训练模型
这篇论文提出了一种新的跨模态生成预训练方法 XGPT,用于图像字幕生成,其能够在不需要特定任务架构修改的情况下进行微调,实验证明在基准数据集上获得了新的最佳结果,并且在图像检索任务中作为数据增强产生了显著的进步。
PDF
4 years ago
Prev
Next