GAgent:具有视觉语言模型的适应性刚柔抓取代理在复杂照明环境中
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。
Dec, 2023
本文构建了一个用于视觉语言模型(VLM)代理与真实计算机屏幕交互的环境,在该环境中,代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面(GUI)。我们还设计了一个自动控制流程,包括规划、执行和反思阶段,指导代理不断与环境交互并完成多步骤任务。此外,我们构建了 ScreenAgent 数据集,收集完成多种日常计算机任务时的屏幕截图和动作序列。最后,我们训练了一个名为 ScreenAgent 的模型,其实现了与 GPT-4V 相媲美的计算机控制能力,并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。
Feb, 2024
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
该研究介绍了一个多智能体框架 (GameVLM),使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程,通过引入零和博弈理论来解决不同智能体之间的一致性问题,并得出最优解,实验证明该框架具有 83.3% 的平均成功率。
May, 2024
利用大规模知识和学习方案以及大型语言模型(LLM),最近的机器学习模型在构建通用性代理人方面取得显著成功,表现出在不同领域(包括自然语言处理、计算机视觉和机器人技术)解决通用任务的能力。然而,这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此,我们提出了一种根植于三维世界中,并具有多模态和多任务的通用代理人,其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人,称为 LEO,在两个阶段进行训练:(一)三维视觉语言对齐,(二)三维视觉语言行动指导调整。为了促进训练,我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集,需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力,包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。
Nov, 2023
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
AI agents are leaving the lab and entering the real world, and the paper introduces NovelGym, a platform for benchmarking reinforcement learning and hybrid planning and learning agents in open-world contexts.
Jan, 2024
本篇论文提出了 GVCCI,一种基于生动地场景生成指引的视觉定位无监督学习框架,该框架通过利用生成的数据持续学习视觉定位模型,并在语言引导机器人操作方面取得了良好的效果。
Jul, 2023
使用图形用户界面(Graphic User Interface)进行人机交互是访问各种数字工具的基本要素,在最近的视觉语言模型(Vision Language Models,VLMs)的发展中,发现了其潜力,可以开发多功能代理人来帮助人类完成图形用户界面导航任务,然而,现有的视觉语言模型在基本能力(OCR 和定位)和图形用户界面知识(图形用户界面元素的功能和控制方法)方面面临挑战,从而无法成为实用的图形用户界面代理人,为了解决这些挑战,我们提出了 GUICourse,一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集,首先,我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力,然后,我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识,实验证明,我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能,即使是小型的图形用户界面代理人(具有 31 亿个参数),仍然能够在单步和多步图形用户界面任务上表现良好,最后,我们通过消融研究分析了训练阶段中这个代理人之间的不同变化,我们的源代码和数据集已在此 https URL 上发布。
Jun, 2024