Aug, 2022

图像作为外语:BEiT预训练模型用于所有视觉和视觉语言任务

TL;DR本文介绍了通用的多模态基础模型BEiT-3,通过三个方面的改进:骨干架构、预训练任务和模型扩展,实现了在视觉和视觉语言任务上的最先进转移性能。