GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

Nov, 2023

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li...

TL;DR使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Abstract

We present mm-navigator, a gpt-4v-based agent for the smartphone graphical user interface (GUI) navigation task. mm-navigator can interact

mm-navigator gpt-4v gui navigation multimodal models zero-shot navigation

发现论文，激发创造

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展，扩展了多模态模型的能力边界，超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT，一种利用 LMMs 的通用网络代理，可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估，我们展示了 GPT-4V 在网络代理中的巨大潜力，如果我们将其文本计划手动转化为网站上的动作，它可以成功完成 50% 的任务，这大大优于仅针对网络代理进行优化的纯文本 LLMs，如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而，转化仍然是一个主要的挑战，现有的 LMM 转化策略，如集合标记提示，并不适用于网络代理，而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而，与理想转化仍然存在相当大的差距，这给进一步改进留下了充分的空间。

Jan, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

WebVoyager: 使用大型多模态模型构建端到端网络代理

我们介绍了 WebVoyager，这是一种创新的大型多模态模型（LMM）驱动的网络代理，可以通过与真实网站的交互来完成用户指令的端到端。此外，我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用了 GPT-4V 的强大多模态理解能力。我们通过收集 15 个广泛使用的网站上的真实任务来评估我们的代理，并展示了 WebVoyager 获得了 55.7% 的任务成功率，大大超过了 GPT-4（所有工具）和 WebVoyager（仅文本）设置的表现，突显出 WebVoyager 在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达到了 85.3% 的一致性，为在真实世界中进一步开发网络代理铺平了道路。

Jan, 2024

MapGPT: 地图引导的视觉与语言导航

本文提出了一种新型的地图引导 GPT-based 路径规划代理模型 (MapGPT)，用于零 - shot 视觉语言导航任务，通过在线构建拓扑地图转换为提示来引导全局探索，要求代理模型明确输出和更新多步路径规划以避免陷入局部探索，并在 R2R 和 REVERIE 数据集上取得了令人印象深刻的性能 (分别为 38.8% 和 28.4% 的成功率)，展示了 GPT 模型在全局思考和路径规划能力方面的新兴能力，与以往需要微调独立参数或特定提示设计来满足不同数据集中不同指令风格的 VLN 代理相比，我们的 MapGPT 更统一，能够在不同指令风格之间无缝适应，这在该领域是首次。

Jan, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

Co-NavGPT: 多机器人协作视觉语义导航

提出了一种创新性的框架 Co-NavGPT，将大型语言模型（LLMs）作为多机器人合作视觉目标导航的全局规划器，通过编码探索环境数据，为每个机器人分配探索边界，实现高效的目标搜索，实验结果表明 Co-NavGPT 在成功率和效率方面优于现有模型，展示了 LLMs 在多机器人协作领域的巨大潜力。

Oct, 2023

GPT-4V 带情感属性：多模态情感理解的零样本基准测试

GPT-4V quantitatively evaluates its capabilities in multimodal emotion understanding, showcasing impressive results and establishing a zero-shot benchmark for future research.

Dec, 2023

GPT-4V (ision) 用于机器人：来自人类演示的多模态任务规划

我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线，以促进机器人操纵。该系统分析人类执行任务的视频，并创建包含可支配见解的可执行机器人程序。实验表明，该方法在实现从人类示范中的真实机器人操作方面具有显著效果。

Nov, 2023