BriefGPT.xyz
Ask
alpha
关键词
scene graph data
搜索结果 - 1
ICCV
RLIPv2:关系式语言 - 图像预训练的快速扩展
提出了一个快速收敛的模型,通过引入不对称语言 - 图像融合机制,以稀疏的语言编码层促进更早和更深的门控跨模态融合,从而实现对大规模伪标记场景图数据的关系预训练的扩展。进行了大量实验,表明该模型在三个基准测试中均取得了最先进的性能。
PDF
a year ago
Prev
Next