Nov, 2023

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

TL;DR在开放世界环境下,通过使用视觉语言(VL)基础模型和大型语言模型(LLMs),本研究探索了通用交互识别的方法,并通过进行深度分析和高级关系提取等设计,以实现超越现有方法的开放类别交互识别。