HiKER-SGG:分层知识增强鲁棒场景图生成
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
Oct, 2023
本研究发展了基于 maskrcnn-benchmark 和多个流行模型的场景图像生成基准测试,并通过 Visual Genome 和 OpenImages 视觉关系检测数据集的全面研究来评估场景图像生成模型的主要特性,从而为完善图像理解模型提供了可能。
Jul, 2021
该研究论文提出了一个面向大尺寸卫星图像的场景图生成方法,构建了一个大规模的 SGG 数据集,通过上下文感知级联认知框架实现了场景图的检测、筛选和关系预测。
Jun, 2024
本文提出了一种基于 Scene Graph Generation 的方法,使用 Stacked Hybrid-Attention network 作为编码器,Group Collaborative Learning 作为解码器优化策略,实现对视觉语言融合不足、信息不全的问题的提升。
Mar, 2022
通过使用场景图来丰富医学知识,本研究提出了一种基于场景图的放射学报告生成网络(SGRRG 网络),该网络能够生成区域级别的视觉特征,预测解剖属性,并利用自动生成的场景图,以实现端到端的医学知识提炼,并在报告生成方面胜过之前的最先进方法,并能更好地捕捉异常发现。
Mar, 2024
基于序列生成的新型开放词汇的场景图生成框架,通过使用视觉语言预训练模型和显式关系建模知识,实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。
Apr, 2024
本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
提出了一种基于 Transformer 的端到端框架,利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法,设计了图组装模块以推断适应性的进行双部分场景图形的构建,并在两个具有挑战性的基准测试中取得了最先进或可比的性能,并提高了推理效率。
Dec, 2021
介绍了一项新的问题任务,即基于全景分割生成全景场景图(PSG);创建了一个高质量 PSG 数据集用于基准测试,并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线;探讨了未来的挑战和发展方向。
Jul, 2022