KDDOct, 2022

DiMBERT: 学习具有分离多模态注意的视觉语言基础表示

TL;DRDiMBERT 是一个新的框架,利用分离的注意力空间对多模态信息进行处理,在引入视觉概念的同时,在文本格式中表示视觉信息,从而加强对视觉和语言之间关联的捕捉,可以用于图像描述,视觉叙事和指称表达的分类任务,并可以轻松的集成到现有的视觉和语言模型中以提高性能。