AAAIFeb, 2022

使用物体引导交叉模态校准语义检测人物与物体互动

TL;DR该研究旨在增强终端到终端的 HOI 检测模型,具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征,建立了一种基于对象的跨模态校准网络(OCN),结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动词分类预测模型有更高的准确性。