Apr, 2024

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

TL;DRFerret-UI 是一种专门用于增强对移动用户界面(UI)屏幕理解的多模态大型语言模型(MLLM),它具备指代、基础和推理能力,并在学习样本、编码和任务执行方面表现出色。