CVPRApr, 2024

从 Transformer 中提取出图形用于场景图生成的 EGTR

TL;DR提出一种轻量级的一阶场景图生成(SGG)模型,通过充分利用 DETR 解码器的多头自注意力层中学习到的各种关系,使用浅层关系抽取头有效地提取关系图,并考虑到关系抽取任务对于物体检测任务的依赖,提出了一种新颖的关系平滑技术,根据检测到的物体质量自适应地调整关系标签,同时还提出了一个辅助任务 —— 连接性预测任务来预测物体对之间是否存在关系。