视觉和文本的组合混合表示

CVPRJun, 2022

Compositional Mixture Representations for Vision and Text

Stephan Alaniz, Marco Federici, Zeynep Akata

TL;DR本文提出一种用于视觉与语言之间学习共同表示空间的模型，通过组合语义上的含义并不需要显式位置监督，将文本的复合性约束在视觉领域中，并通过空间变换器以及一种表示学习的方法，学习将图像分成分别编码的补丁，以可解释的方式将视觉和文本表示相结合，该模型能够执行弱监督对象检测，并展示了其对未见对象组合的外推能力。

Abstract

Learning a common representation space between vision and language allows deep networks to relate objects in the image to the correspondin

vision language representation object detection compositionality

发现论文，激发创造

用于组合表示学习的多模态生成模型

该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Dec, 2019

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

文本与图像生成模型实现无监督组合概念发现

本文介绍了一种基于无监督学习的方法，探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念，进一步利用这些生成概念生成新的艺术和混合图像，并将其用作下游分类任务的一种表示。

Jun, 2023

组合神经材质

使用组合神经模型全自动地表示纹理，通过编辑高斯文本在潜在空间中修改纹理，实现了纹理分析、建模和编辑的新技术，拓展了可控纹理的视觉吸引力图像的创作可能性。

Apr, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

从多个未指明的视点无监督学习构造场景表示

提出了一种基于深度生成模型的方法，通过将潜在的场景表示分为与视角无关和视角相关部分来学习多个未指定视角的组合场景表示，并采用神经网络来迭代集成不同视角中包含的信息。实验表明该方法能够有效地从多个未指定视角学习.

Dec, 2021

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

学习组合表示用于少样本识别

通过引入简单的正则化技术以及利用类别级别属性注释对神经网络进行特征空间分解，本工作试图弥合深度学习模型与人类学习之间的鸿沟，证明组合表示的价值并展示少量样本即可学习新类别的分类器。

Dec, 2018

教授卷积神经网络组合性

本文提出了一种扩充并训练卷积神经网络的方法，使其学到的特征是组成式的，并促进对对象的分离。实验表明，这种组成式特征学习方法在目标识别任务中相比非组成式基线可以获得更好的性能提升。

Jun, 2017

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。

Apr, 2024