Jul, 2023

LOIS:视觉问答中的实例语义观察

TL;DR我们提出了一种不使用边界框的细化模型框架(LOIS)来解决视觉问题回答中关于对象语义因果关系的挑战,并通过两种关系注意力模块来处理实例遮罩引起的标签歧义。实验证明,我们的方法在改进视觉推理能力方面具有良好的性能。