基于视觉的概念组合
本文提出了一种基于 RVG-TREE 的自然语言基础模型,其可以自动组成二叉树结构进行语言解析,并沿着树进行自底向上的视觉推理,实现更具解释性的推理效果。
Jun, 2019
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
本文将视觉与语言相结合用于语言理解,采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型,在 MSCOCO 测试标题上取得了新的最佳效果,证实了视觉基础在短语结构语法归纳中的有效性。
Sep, 2020
本文介绍了一种名为 ConcreteGraph 的图结构,用于解决概念相关性评估中的数据稀缺问题,并结合数据增强方法和图组件对比学习方法来捕捉概念之间的高阶关系。实验证明,该方法在三个数据集上的性能优于现有方法。
Jun, 2022
本文探讨了视觉图像和语言语义的组合结构问题,并提出了一些方法,如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization,以提高这种组合结构的能力。
May, 2023
利用概念为基础的可解释性方法,通过将其嵌入分解为高级概念,提供了一种深入研究基础模型内部的透视角度。我们展示了现有的无监督概念抽取方法找到的概念并不是可组合的。为了自动发现可组合的概念表示,我们确定了这些表示的两个显著特性,并提出了用于找到符合这些特性的概念的可组合概念抽取算法 (CCE)。我们在图像和文本数据上评估了 CCE,并且结果表明 CCE 找到了更多可组合的概念表示,并在四个下游分类任务上取得了更好的准确率。代码和数据可在 https:// 此网址 获取。
Jun, 2024
介绍了一种扩展基于范畴的表示意义的方法,将其应用于概念空间模型,提出了凸关系范畴,构建了名词、形容词和动词类型的概念空间,通过例子说明了复合短语的构成方式,建立了一种新的认知复合方法。
Mar, 2017
介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分,即 Charades-CG 和 ActivityNet-CG,用于测试模型的组合泛化能力,提出了一个变异的跨图推理框架来应对这一挑战。
Mar, 2022
本文提出了一种基于生成对抗网络的概念学习方法 ConceptGAN,该方法可用于联合从不同数据集中学习多个概念,并通过循环一致性实现数据增强以提高现实世界应用鲁棒性。实验结果表明,该方法能够生成语义上有意义的图像,并且在一次性人脸验证中取得了出色的效果。
Nov, 2017
MetaReVision 是一个检索增强元学习模型,用于解决基于视觉感知的构成概念学习问题。该模型由检索模块和元学习模块组成,通过从已检索的基本概念中学习来支持元训练视觉 - 语言模型,以识别构成概念。MetaReVision 通过元学习从构建的检索集中学习出一种通用的构成表示,可以快速更新以识别新的构成概念。实验结果表明,MetaReVision 在构成学习过程中胜过其他竞争基准,并且检索模块在此过程中起重要作用。
Nov, 2023