BriefGPT.xyz
Ask
alpha
关键词
masked signal modeling
搜索结果 - 1
ICLR
多模态表示学习的遮蔽视觉和语言建模
本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种 V + L 任务中实现了最先进的性能。
PDF
2 years ago
Prev
Next