Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

Oct, 2023

Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds

Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu

TL;DR本文提出了 Steve-Eye，一个端到端训练的大型多模态模型，用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战，并基于广泛实验验证了该模型在战略行为和规划方面的能力。

Abstract

Recent studies have presented compelling evidence that large language models (LLMs) can equip embodied agents with the self-driven capability to interact with the world, which marks an initial step toward versati

large language models embodied agents visual richness multimodal model open-world evaluation

发现论文，激发创造

目视与思考：虚拟环境中的具身智能体

STEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理，其三个关键组成部分是视觉感知、语言指导和代码动作，通过视觉信息解释、迭代推理和可执行技能行为生成，STEVE 在 Minecraft 环境中实现更快的技能解锁和方块搜索任务。

Nov, 2023

STEVE 系列：在 Minecraft 中逐步构建代理系统

通过在 Minecraft 环境中部署 STEVE 系列代理人系统，使用大型语言模型 (LLM) 作为核心，我们能够以更高效的方式完成基本任务、导航以及创造性任务，其效率超过先前的最先进方法的 2.5 倍到 7.3 倍。

Jun, 2024

我们真的需要一个复杂的代理系统吗？将具体化的代理蒸馏成单一模型

STEVE-2 使用层次化知识蒸馏框架，将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中，实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明，在开放式任务中，其表现优于其他方法，性能提升了 1.4-7.3 倍。

Apr, 2024

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

基于 LLM 的具有视觉信息和面向预测的具身化世界模型

在这项研究中，通过探索利用视觉数据和 LLM 作为世界模型的可能性，以改善嵌入式人工智能的性能，实验结果表明 LLM 可以从视觉数据中提取必要信息，并利用这些信息提高其作为世界模型的性能，同时还指出设计的提示可以发挥 LLM 作为世界模型的功能。

Jun, 2024

实现视觉辅助对话的社交机器人

本论文提出了一个初步实现的对话管理器，利用最新的大型语言模型（如 GPT-4，IDEFICS）来将视觉能力整合到对话代理中，以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要，以确保在上下文保留和计算效率之间保持平衡。通过实现这种视觉使能的对话系统，本论文展望了未来，让对话代理无缝地融合文本和视觉模态，实现更丰富、更上下文感知的对话。

Nov, 2023

内视力：基于模拟的基础语言模型推理

研究通过使用计算物理引擎作为输入，将语言模型中的推理过程与现实社会有机结合，让模型具有更加精准有效的推理能力，以达到人类与 AI 之间成功和有效的交流。该研究的实验证明 Mind's Eye 可以在物理对齐基准测试中改善模型推理能力 27.9％（零击中率）和 46.0％（少量击中率），较小的语言模型具有 Mind's Eye 也能获得类似的性能。

Oct, 2022

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较，我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比 GPT4-HOLMES 高出 3%，但这种性能仅适用于最新的 GPT4-Vision 模型，超过开源最先进的多模态大型语言模型的 26%。我们的结果表明，像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力，为多模态大型语言模型研究开辟了新的途径。

Oct, 2023

LMEye：用于大型语言模型的交互式感知网络

本文提出了一种名为 LMEye 的交互感知网络，旨在提高 Large Visual Language Model 的图像理解精度。LMEye 网络包括一个静态视觉映射网络和一些负责获取请求、分解图像特征和传输交错信息的线性层。通过在多模态问答和推理任务上进行广泛实验，我们证明 LMEye 显著提高了 LLMs 在多模态任务上的零 - shot 性能。

May, 2023