Aug, 2021
SimVLM:简单的弱监督视觉语言模型预训练
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
TL;DR本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了SimVLM获得了强大的泛化和转移能力,实现了零-shot行为。