大型多模态模型：CVPR 2023教程笔记

Jun, 2023

大型多模态模型：CVPR 2023教程笔记

Large Multimodal Models: Notes on CVPR 2023 Tutorial

Chunyuan Li

TL;DR该论文总结了CVPR2023最新视觉基础模型进展讲座中有关多模式GPT-4模型的演示，介绍了最新的大规模语言模型中的指令调整、多模态空间的扩展，以及如何用开源资源构建多模态GPT-4模型的最小原型等热门话题。

Abstract

This tutorial note summarizes the presentation on ``Large multimodal models: Towards Building and Surpassing Multimodal gpt-4'', a part of CVPR 2023 tutorial on ``Recent Advances in Vision Foundation Models''. Th