Nov, 2023

GPT-4V 在仙境中:用于零封注册手机 GUI 导航的大型多模态模型

TL;DR使用基于 GPT-4V 的 MM-Navigator 代理,通过先进的屏幕解析、动作推理和精确的动作定位能力,在智能手机图形用户界面(GUI)导航任务中实现了零射击导航,并在 iOS 和 Android 上展示了优异的性能。