BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal prompts
搜索结果 - 5
EVF-SAM: 文本引导片段任意模型的早期视觉语言融合
利用多模态提示和视觉 - 语言模型,本文介绍了一种简单而有效的基于早期视觉 - 语言融合的提及分割方法,EVF-SAM,它能以较少的参数获得比以往的大型多模态模型更好的性能,用于提高 Segment Anything Model (SAM)
→
PDF
6 days ago
MUMU:从文本到图像数据引导多模态图像生成
我们训练了一个模型,从混合了文本和图片的多模态提示中生成图片,例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中
→
PDF
8 days ago
IMProv: 基于修复的多模态计算机视觉任务解题
本研究提出了 IMProv - 一种生成模型,能够从多模态提示中进行上下文学习,以解决计算机视觉任务,并通过文本条件和数据集缩放来提高任务性能。
PDF
7 months ago
通过预训练和多任务微调掌握多模态机器人操作
通过引入一个有效的框架,从多任务的专家轨迹中学习使用多模式提示进行机器人操作,我们在 VIMA-BENCH 上评估了方法的功效,并建立了一个新的最先进水平(成功率提高了 10%)。此外,我们还展示了我们的模型具有显著的情境学习能力。
PDF
9 months ago
VIMA: 多模态提示的通用机器人操作
使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA),可以表达多种机器人操作任务,且在新颖的零激励泛化情况下优于先前的状态最优方法。
PDF
2 years ago
Prev
Next