基于视觉的概念组合

EMNLPSep, 2021

Visually Grounded Concept Composition

Bowen Zhang, Hexiang Hu, Linlu Qiu, Peter Shaw, Fei Sha

TL;DR我们提出了概念和关系图（CRG）和概念合成神经网络（Composer），通过对 CRG 的利用来进行视觉基础概念学习，从而学习原始和所有的复合概念，将它们与图像对齐，提高文本到图像匹配的准确性，并且在不同粒度级别（句级和词级）建模形成的基础概念，实现概念合成引领更加鲁棒的基础结果。

Abstract

We investigate ways to compose complex concepts in texts from primitive ones while grounding them in images. We propose Concept and Relation Graph (CRG), which builds on top of constituency analysis and consists of recursively combined concepts with predicate functions. Meanwhile, we propose a concept composition →

concept composition neural network visually grounded concept learning text-to-image matching accuracy modeling grounded concepts

发现论文，激发创造

学习使用语言树结构合成和推理视觉基础

本文提出了一种基于 RVG-TREE 的自然语言基础模型，其可以自动组成二叉树结构进行语言解析，并沿着树进行自底向上的视觉推理，实现更具解释性的推理效果。

Jun, 2019

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020

基于图构件对比学习的概念相关性估计

本文介绍了一种名为 ConcreteGraph 的图结构，用于解决概念相关性评估中的数据稀缺问题，并结合数据增强方法和图组件对比学习方法来捕捉概念之间的高阶关系。实验证明，该方法在三个数据集上的性能优于现有方法。

Jun, 2022

视觉语境下的语义组合模型

本文探讨了视觉图像和语言语义的组合结构问题，并提出了一些方法，如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization，以提高这种组合结构的能力。

May, 2023

走向概念学习的组合性

利用概念为基础的可解释性方法，通过将其嵌入分解为高级概念，提供了一种深入研究基础模型内部的透视角度。我们展示了现有的无监督概念抽取方法找到的概念并不是可组合的。为了自动发现可组合的概念表示，我们确定了这些表示的两个显著特性，并提出了用于找到符合这些特性的概念的可组合概念抽取算法 (CCE)。我们在图像和文本数据上评估了 CCE，并且结果表明 CCE 找到了更多可组合的概念表示，并在四个下游分类任务上取得了更好的准确率。代码和数据可在 https:// 此网址获取。

Jun, 2024

相互作用的概念空间 I：概念的语法组合

介绍了一种扩展基于范畴的表示意义的方法，将其应用于概念空间模型，提出了凸关系范畴，构建了名词、形容词和动词类型的概念空间，通过例子说明了复合短语的构成方式，建立了一种新的认知复合方法。

Mar, 2017

结构化变分跨图对应学习的组合时序对齐

介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分，即 Charades-CG 和 ActivityNet-CG，用于测试模型的组合泛化能力，提出了一个变异的跨图推理框架来应对这一挑战。

Mar, 2022

使用相互一致性学习组合视觉概念

本文提出了一种基于生成对抗网络的概念学习方法 ConceptGAN，该方法可用于联合从不同数据集中学习多个概念，并通过循环一致性实现数据增强以提高现实世界应用鲁棒性。实验结果表明，该方法能够生成语义上有意义的图像，并且在一次性人脸验证中取得了出色的效果。

Nov, 2017

MetaReVision: 具有视觉依据的组合概念获取的检索元学习

MetaReVision 是一个检索增强元学习模型，用于解决基于视觉感知的构成概念学习问题。该模型由检索模块和元学习模块组成，通过从已检索的基本概念中学习来支持元训练视觉 - 语言模型，以识别构成概念。MetaReVision 通过元学习从构建的检索集中学习出一种通用的构成表示，可以快速更新以识别新的构成概念。实验结果表明，MetaReVision 在构成学习过程中胜过其他竞争基准，并且检索模块在此过程中起重要作用。

Nov, 2023