Nov, 2024

VLM-HOI:用于可解释的人-物交互分析的视觉语言模型

TL;DR本研究解决了人-物交互检测任务中的能力提升问题,提出了一种新颖的方法,将视觉语言模型(VLM)作为目标函数来量化预测的HOI三元组的相似性。实验结果表明,该方法在基准测试中实现了最先进的检测准确率,标志着在实现更高级和可解释的人-物交互分析方面的重要进展。