Apr, 2021

视觉扩展对视觉语言模型中自然语言理解的影响

TL;DR本研究提出采用基于结构扩展和预训练技术的方法来创建一个视觉语言模型,通过评估 GLUE 基准测试,比较单流和双流模型的表现,结果表明,单流结构在保持语言知识方面比双流更有效。