利用谓词和三元组学习进行场景图生成
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
Aug, 2023
本文介绍了一种新的基于 Transformer 的方法,称为 DSGG,将场景图检测视为基于一组独特的图感知查询的直接图预测问题,并采用放松子图匹配的方式获取图节点及其关系的紧凑表示,以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明,该模型在场景图生成任务上取得了最先进的结果,在 mR@50 和 mR@100 方面分别取得了 3.5%和 6.7%的显著改进,在全景场景图生成任务上甚至取得了 8.5%和 10.3%的更大改进。
Mar, 2024
本文提出了一种新颖的内外数据传输( IETrans )方法来解决场景图生成的两个数据分布问题,即长尾分布和语义歧义 。通过自动创建增强的数据集,该方法为所有谓词提供了更充分和连贯的注释,从而可应用于大规模带有 1,807 个谓词类的 SGG。最终,通过在增强的数据集上训练,使用神经因子模型可以在保持竞争性宏性能的同时,使得宏性能翻倍。
Mar, 2022
提出了一种基于 Transformer 的端到端框架,利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法,设计了图组装模块以推断适应性的进行双部分场景图形的构建,并在两个具有挑战性的基准测试中取得了最先进或可比的性能,并提高了推理效率。
Dec, 2021
本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型,采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题,同时设计了平衡的学习策略。实验表明,在 Visual Genome 数据集上,TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。
Jun, 2023
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相比,我们的方法在三个子任务中的平均回收率分别提高了 14.3%,8.0%和 6.1%。
Aug, 2021
本文提出了 TraCQ, 一种新的基于 Transformers 和带有条件查询的 SGG 模型,绕开多任务学习问题和组合实体配对分布,并且在使用 Visual Genome 数据集的实验中优于目前单阶段 SCG 方法和许多双阶段方法,且具有端到端的训练和更快的推理。
Jun, 2023
通过构建不同分布环境来平衡主 - 客体对的不平衡,并采用课程学习策略平衡不同环境,我们提出了一种新颖的环境不变课程关系学习方法,可应用于现有的场景图生成方法,实验证明该方法实现了重要的改进。
Aug, 2023
通过引入边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN),本论文提出了一种建模多对象关系的新方法,可以准确地预测对象之间的详细关系,并在各个场景图生成子任务中实现了显著的性能提升,同时有效缓解了长尾分布问题。
Nov, 2023
通过利用大型语言模型和链式思维及上下文少样本学习策略,我们提出了一种新方法:用于弱监督场景图生成的大型语言模型,可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐,有效地解决语义过度简化和低密度场景图的问题,实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升,且能够以少量的训练图片进行有效的模型训练。
Oct, 2023