May, 2024

多模态人工智能系统中用于视觉指令建立的图形用户界面代理优化

TL;DR该研究提出了一种名为Search Instruction Coordinates(SIC)的多模态对象识别解决方案,可用于自主计算机视觉驱动的人工智能代理,通过自然语言指令和GUI截图定位指令在屏幕上执行的组件的坐标。研究开发了两种方法,第一种基于大型语言模型和目标检测模型的三部分架构,第二种使用了多模态基础模型。