生成多模态模型是上下文学习者
本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型,它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练,将任何单模态或多模态数据输入混合 (例如,交错的图像、文本和视频),并表现得十分出色。
Jul, 2023
UniMP 是一种统一的多模式个性化系统的范式,通过使用多模态数据并消除任务和模态特定定制的复杂性,充分发挥了基础生成模型的灵活性和效力,以实现广泛的个性化需求,包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。
Mar, 2024
我们训练了一个模型,从混合了文本和图片的多模态提示中生成图片,例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪,引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成,并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上,MUMU 学会将来自不同图片的输入组合成一致的输出。例如,一个真实人物和一个卡通的输入会以卡通风格输出相同的人物,一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此,我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。
Jun, 2024
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
我们提出了一种统一的编码 - 解码模型,称为 Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果(36.81% 的成功率)用于评估 Alexa Arena 中的对话引导代理。
Nov, 2023
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。
Jan, 2024
Emu Edit 是一个多任务图像编辑模型,通过训练在广泛的任务上展示出卓越的性能,引入了学习任务嵌入来指导生成过程,使其能够成功执行用户的自然语言指令,并且能够推广到新的任务,并发布了一个多样化的基准模型进行评估。
Nov, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023