使用符号理论来实现可扩展的场景图生成模型正则化
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023
基于序列生成的新型开放词汇的场景图生成框架,通过使用视觉语言预训练模型和显式关系建模知识,实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。
Apr, 2024
本文提出了一种基于强化学习的语法引导符号回归方法,利用上下文无关文法作为强化行动空间来限制表示空间,并且针对物理方程搜索的应用场景,与基于文法和非基于文法的符号回归方法进行比较。实验结果表明,我们的方法在基准测试中具有竞争力,并在误差 - 复杂度权衡方面提供了最佳表现,突出了在实际情况下使用基于文法的方法的优点。
Feb, 2022
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
Oct, 2023
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相比,我们的方法在三个子任务中的平均回收率分别提高了 14.3%,8.0%和 6.1%。
Aug, 2021
基于在预训练语言模型中环境背景学习的成就,本论文提出了一种新颖实用的场景图生成框架,名为终身场景图生成(LSGG),在其中任务如谓词以流式方式展开。严格实验表明,我们提出的方法在 LSGG 方面在各种度量标准上优于现有方法。此外,在两个主流基准数据集 VG 和 Open-Image (v6) 上的广泛实验显示了我们提出的模型在连续学习和传统设置方面的优势。此外,全面的消融实验证明了我们模型的每个组成部分的有效性。
Jan, 2024
本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
我们提出了一种新的用于有命题背景知识的监督多标签分类的形式化方法,称为推理中的语义调整,其在推理过程中限制系统而不影响训练,相比于另外两种常见的神经符号技术(语义调整和语义正则化),我们讨论了其在理论和实际上的优势,并开发了一种新的多尺度方法来评估神经符号技术的好处随着网络规模的演化,通过对多个数据集的实验和比较,我们的结果表明,推理中的语义调整可以用于构建更准确的基于神经网络的系统,使用更少的资源,并确保输出的语义一致性。
Feb, 2024