Jun, 2020

学习视觉通识以实现强健场景图生成

TL;DR论文提出了一种通过获取视觉常识来改善场景图生成模型的鲁棒性的方法,并使用 Transformer 模型结合场景图结构训练了 GLAT 模型,该模型可以纠正明显的错误。通过实验证明,该模型比其他方法更好地学习了视觉常识,并提高了最先进场景图生成模型的准确性。