Nov, 2023

通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

TL;DR在这篇论文中,我们提出了三个用于生成图像中的人类中心视觉线索的提示,并结合了多人的多视角来生成丰富的人类中心视觉线索,以用于人物 - 物体交互检测,我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性,而我们提出的模型在两个广泛使用的数据集上的实验结果表明其在现有最先进方法上的优越性。