Jun, 2023

利用大型语言模型实现可扩展矢量图像驱动的图像理解

TL;DR本文介绍了一种新的、探索性的方法,使大型语言模型能够使用可缩放矢量图形(SVG)格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟,允许 LLM 直接理解和操作图像,而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习,我们展示了我们方法的潜力在鉴别性和生成性任务上,强调了其对分布偏移的鲁棒性以及通过利用 LLM 的上下文学习能力实现的重大提高。