UNIMO-G:基于多模态条件扩散的统一图像生成
本文介绍了一种名为 UNIMO 的统一单模态预训练架构,它可以有效地适应单模态和多模态理解和生成任务,利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力,并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明,UNIMO 显著改善了几个单模态和多模态下游任务的性能。
Dec, 2020
本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架,采用 “基础学习” 方案,成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。
Mar, 2022
本文提出了一个名为 UniDiff 的多模态模型,它整合了图像 - 文本对比学习(ITC),文本条件的图像合成学习(IS)和双向语义一致性建模(RSC),并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力,为个性化建模建立了一个强大的流水线,并成为该领域未来比较的基准。
Jun, 2023
我们训练了一个模型,从混合了文本和图片的多模态提示中生成图片,例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪,引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成,并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上,MUMU 学会将来自不同图片的输入组合成一致的输出。例如,一个真实人物和一个卡通的输入会以卡通风格输出相同的人物,一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此,我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。
Jun, 2024
本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法,通过图像识别加强双向多模态翻译的学习效果,在 Multi30K 数据集上与传统基于文本的神经机器翻译相比,本方法有更好的实验结果。
Nov, 2018
本研究提出了 UNIMO-3 模型,旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题,并能同时学习多模态的在层交互和跨层交互,实验结果显示该模型达到了最新工作的最好结果。
May, 2023
研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估,并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验,证明了我们提出方法的优越性和效果。
Jun, 2024
本研究提出了一种多模态无监督图像到图像的翻译框架 (MUNIT),该框架可以将图像表示分解为内容代码和风格代码,从而能够生成来自给定源域图像的多样性输出,并能够通过提供示例样式图像来控制翻译输出的风格。该框架在对比最先进的方法的基础上,通过大量实验证明了其优势。
Apr, 2018
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
通过设计一种多模态文本到图像扩散模型(DiffBlender),可以同时引入多种不同类型的细节表达方式,如草图、盒子和风格嵌入等,不需要更改现有模型的参数,从而在单个模型中实现条件生成,并且通过量化和定性比较,将多模态生成的标准提高到了新的水平。
May, 2023