BriefGPT.xyz
Ask
alpha
关键词
visual large language model (vllm)
搜索结果 - 1
LEGO: 通过视觉指导调整学习自我中心动作帧生成
从以自身为中心的视角生成人类日常行为的指导性图像是有效的技能传递的一个关键步骤。本文提出了一个新颖的问题 —— 以自身为中心的动作帧生成。目标是根据用户提示问题和捕捉用户环境的输入自身中心图像,合成动作帧。值得注意的是,现有的自身中心数据集
→
PDF
7 months ago
Prev
Next