BriefGPT.xyz
Ask
alpha
关键词
vision-language-action model
搜索结果 - 2
OmniJARVIS: 统一的视觉 - 语言 - 行为标记使得开放世界指导跟随代理
OmniJARVIS 是一个新颖的视觉 - 语言 - 动作(VLA)模型,用于开放世界 Minecraft 中的指令跟随代理。通过对多模态交互数据进行统一分词,OmniJARVIS 能够具备强大的推理和高效的决策能力,并在开放世界 Mine
→
PDF
9 days ago
LEGENT: 落地式代理人开放平台
通过使用 LEGENT 生成的数据,我们训练的视觉 - 语言 - 动作模型在具体任务中超越了 GPT-4V,展示了令人期待的泛化能力。
PDF
2 months ago
Prev
Next