BriefGPT.xyz
Ask
alpha
关键词
multi-modal instructions
搜索结果 - 4
Tool-LMM:一个用于工具智能学习的大型多模态模型
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。
PDF
6 months ago
MiniGPT-v2:大型语言模型作为视觉语言多任务学习的统一接口
利用 MiniGPT-v2 建立一个统一的界面,有效地处理各种视觉 - 语言任务,包括图像描述、视觉问答和视觉定位等,并通过使用唯一标识符提高模型在每个任务中的学习效率。
PDF
9 months ago
基于风格转移的语音和视觉场景理解,用于机器人从视频中获取操作序列
本文介绍一种从指令视频中生成机器人动作序列的方法,用于实现人机协作,并展示了该方法在各种烹饪动作中的成功率达到 32%。
PDF
a year ago
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
本文介绍 Instruct2Act 框架,利用大型语言模型将多模态指令映射为机器人操作任务所需的 Python 代码,采用 Segment Anything Model (SAM) 和 CLIP 等基础模型有效定位和分类物体,实现高效的机器
→
PDF
a year ago
Prev
Next