BriefGPT.xyz
大模型
Ask
alpha
关键词
v-l representations
搜索结果 - 1
KDD
DiMBERT: 学习具有分离多模态注意的视觉语言基础表示
DiMBERT 是一个新的框架,利用分离的注意力空间对多模态信息进行处理,在引入视觉概念的同时,在文本格式中表示视觉信息,从而加强对视觉和语言之间关联的捕捉,可以用于图像描述,视觉叙事和指称表达的分类任务,并可以轻松的集成到现有的视觉和语言
→
PDF
2 years ago
Prev
Next