Oct, 2023
Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界
Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds
Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu
TL;DR本文提出了 Steve-Eye,一个端到端训练的大型多模态模型,用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战,并基于广泛实验验证了该模型在战略行为和规划方面的能力。