视觉概念学习中的组合多样性
该论文介绍了一种名为SCAN的学习框架,可通过快速符号关联以无监督方式发现视觉基元并将其作为抽象概念来学习概念。SCAN还可以通过符号指令遍历和操作视觉概念的隐式层次结构,并通过逻辑组合操作创建视觉概念的新组合,并能够生成多模态双向推断的结果。
Jul, 2017
本文中,我们展示了由能量基模型直接组合概率分布从而展示人类智能的一个重要方面:从简单构想到复杂概念的组合能力。我们的模型能够生成自然图像,同时满足概念的合取、析取和否定等关系。我们在 CelebA 数据集和合成 3D 场景图像上评估了我们模型的组合生成能力,并展示了我们模型的其他优势,如持续学习和整合新概念,或推断图像潜在的概念属性组合。
Apr, 2020
该研究介绍了一个名为ConceptWorld的环境,用于生成通过逻辑领域特定语言定义的构成和关系概念的图像。研究测试了标准神经网络和关系网络的泛化能力,并提出了一个潜在的基准模型,以鼓励在构成和关系领域有效泛化的模型的发展。
Jun, 2020
该论文介绍了一个新的视觉推理基准测试,Compositional Visual Relations (CVR),以推动更加数据高效的学习算法的开发,并发现卷积神经网络比变压器架构在大多数数据方案上表现更好,但所有计算模型都比人类更不数据高效。
Jun, 2022
通过创建Attribution, Relation, and Order (ARO)基准来系统性地 evaluated视觉语言模型(VLMs) encode构成信息的能力,其中ARO包含Visual Genome Attribution、Visual Genome Relation和COCO & Flickr30k-Order等测试,并表明对比学习中“hard negative mining”的简单实现显著提高了理解顺序和组成性所需的任务的性能。
Oct, 2022
本研究探讨了模拟推理对于在可组合元素的视觉刺激下的情境组合的学习的作用,并提出了一个名为Im-Promptu的元学习框架,用于训练多个具有不同组成水平的代理。实验揭示了推广能力和组合度之间的权衡,可以扩展学习到的组合规则到看不见的域,但在组合任务上表现不佳。集中于对象的标记方法配合交叉注意模块生成一致和高保真的解决方案,这种感性偏见特别关键。最后,我们展示了Im-Promptu作为图像生成的直观编程界面的用例。
May, 2023
通过对条件扩散模型的控制实验研究,我们发现生成模型在组合推理任务上的性能是突然出现的,其组合能力取决于底层数据生成过程的结构,并在生成非分布样本时需要更多的优化步骤。
Oct, 2023
通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的Lewis信号游戏重新定义了视觉-语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达到了在SugarCrepe评测中相比标准CLIP模型分别提升4.7%和4.0%的效果。
Apr, 2024
学习组合表示是目标为中心的学习的关键方面,它实现了灵活的系统化推广并支持复杂的视觉推理。然而,大多数现有方法依赖于自编码目标,而复杂性通常是由编码器中的架构或算法偏差隐含地施加的。本研究中,我们提出了一种新的目标,明确促进这些表示的复杂性。我们的方法基于现有的目标为中心的学习框架(例如,槽关注)构建,并加入了额外的约束,使得来自两幅图像的任意对象表示混合有效,通过最大化复合数据的似然性。我们证明将我们的目标融入现有框架可以持续改善客观为中心的学习,并增强对架构选择的鲁棒性。
May, 2024
综述了有关计算模型和认知研究中的组合学习的文献,并连接了认知和语言模型在组合推理中面临的计算挑战。概述了形式定义、任务、评估基准、各种计算模型和理论发现,并介绍了大型语言模型的现代研究,以深入了解尖端人工智能模型展示的组合能力,并指出了未来研究的重要方向。
Jun, 2024