Mar, 2024

VisionLLaMA:一个统一的视觉任务 LLaMA 接口

TL;DR该研究论文介绍了一种基于转换器架构的大型语言模型,探讨了该转换器是否能够用于处理二维图像,并提出了一种名为 VisionLLaMA 的类似 LLaMA 的视觉转换器,用于解决各种视觉任务,并在图像生成中展现出显著的改进。该研究代码将在指定的 URL 上发布。