multimodal prompts | BriefGPT

关键词multimodal prompts

搜索结果 - 5

EVF-SAM: 文本引导片段任意模型的早期视觉语言融合
利用多模态提示和视觉 - 语言模型，本文介绍了一种简单而有效的基于早期视觉 - 语言融合的提及分割方法，EVF-SAM，它能以较少的参数获得比以往的大型多模态模型更好的性能，用于提高 Segment Anything Model (SAM)
PDF6 days ago
MUMU：从文本到图像数据引导多模态图像生成
我们训练了一个模型，从混合了文本和图片的多模态提示中生成图片，例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中
PDF8 days ago
IMProv: 基于修复的多模态计算机视觉任务解题
本研究提出了 IMProv - 一种生成模型，能够从多模态提示中进行上下文学习，以解决计算机视觉任务，并通过文本条件和数据集缩放来提高任务性能。
PDF7 months ago
通过预训练和多任务微调掌握多模态机器人操作
通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。
PDF9 months ago
VIMA: 多模态提示的通用机器人操作
使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。
PDF2 years ago