CVPRApr, 2023

视频中无偏场景图生成

TL;DR该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。