BriefGPT.xyz
Ask
alpha
关键词
gui understanding
搜索结果 - 2
V-Zen:高效 GUI 理解与准确引用的新型多模态 LLM
V-Zen 是一款创新的多模态大语言模型,通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果,并与 GUIDE 数据集成功集成,标志着多模态人工智能研究的新时代的来临。
PDF
a month ago
CogAgent:GUI 代理的视觉语言模型
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本
→
PDF
7 months ago
Prev
Next