May, 2024

V-Zen:高效 GUI 理解与准确引用的新型多模态 LLM

TL;DRV-Zen 是一款创新的多模态大语言模型,通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果,并与 GUIDE 数据集成功集成,标志着多模态人工智能研究的新时代的来临。