BriefGPT.xyz
Ask
alpha
关键词
digital devices
搜索结果 - 1
CogAgent:GUI 代理的视觉语言模型
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本
→
PDF
7 months ago
Prev
Next