Dec, 2023

CogAgent:GUI 代理的视觉语言模型

TL;DR本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。