视觉扩展对视觉语言模型中自然语言理解的影响

Apr, 2021

视觉扩展对视觉语言模型中自然语言理解的影响

Effect of Vision-and-Language Extensions on Natural Language Understanding in Vision-and-Language Models

Taichi Iki, Akiko Aizawa

TL;DR本研究提出采用基于结构扩展和预训练技术的方法来创建一个视觉语言模型，通过评估 GLUE 基准测试，比较单流和双流模型的表现，结果表明，单流结构在保持语言知识方面比双流更有效。

Abstract

Extending language models with structural modifications and vision-and-language (V&L) pretraining are successful ways of making V&L models that can ground vision and language. Potential applications of these advanced models include multi-modal machine reading comprehension models and multi-modal dialogue models, which require language ability upon grounding.