视觉概念 - 元概念学习
该文提出了一种元学习框架,通过同时观察图片、阅读描述场景中对象的句子和解释补充句子等多个自然出现的数据流来快速学习新的视觉概念,支持问答等应用,其模型命名为 FALCON,使用方框嵌入空间表示视觉概念,包括颜色和形状,并利用关系推理技术推理出未知视觉概念的最优方框嵌入。
Mar, 2022
MetaReVision 是一个检索增强元学习模型,用于解决基于视觉感知的构成概念学习问题。该模型由检索模块和元学习模块组成,通过从已检索的基本概念中学习来支持元训练视觉 - 语言模型,以识别构成概念。MetaReVision 通过元学习从构建的检索集中学习出一种通用的构成表示,可以快速更新以识别新的构成概念。实验结果表明,MetaReVision 在构成学习过程中胜过其他竞争基准,并且检索模块在此过程中起重要作用。
Nov, 2023
视觉语言模型能够预测图像中的视觉概念,例如 'brown'(颜色)和'spiky'(纹理),这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略,我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念,这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。
Apr, 2024
通过代表难度和模型能力的 mIRT 模型,设计了一个基于问题回答学习的适应课程,应用于视觉概念学习,实验结果表明这种方法可以实现卓越的数据效率和收敛速度,仅使用 40% 的训练数据,与其他最先进的方法相比,收敛速度提高了三倍。
Jul, 2020
本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法,该算法基于关联图像的视觉判别力自动筛选文本术语,并使用视觉和语义相似性将其分组成概念。 通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用,结果表明发现的概念不仅显著优于几个大型手动选择的概念集,而且在检索任务中也取得了最先进的性能。
Sep, 2015
通过从大型预训练的视觉语言模型中提取和训练一组概念编码器,我们的目标是学习一种以语言为导向的视觉概念表示,以重现输入图像,并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入,从而生成具有视觉概念新组合的图像。
Dec, 2023
本文介绍了 MetaCLUE—— 一组用于视觉隐喻的视觉任务,以及收集的高质量且丰富的比喻注释数据集,并对基于注释的最先进视觉和语言模型进行了全面的分析,重点介绍了当前方法在视觉隐喻分类、定位、理解和生成方面的优势和弱点,旨在为开发具有类人创造力的 AI 系统迈出具体的一步。
Dec, 2022
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023