Mar, 2023

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

TL;DR本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法,该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互,以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示,所有贡献均可以提高 HOI 检测的性能。