Nov, 2023

Symbol-LLM:借助语言模型进行视觉人类活动推理的符号系统

TL;DR人的推理可以理解为直觉、联想的 “系统 1” 和理性、逻辑的 “系统 2” 之间的协作。对于现有的视觉活动理解中的 “系统 1” 类似方法,整合 “系统 2” 处理以提高解释性、泛化性和数据效率至关重要。人类活动推理的一种可能路径是构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,暗示人类的知识和推理能力。先前的方法在不断进步,但由于手工制作的符号数量有限和基于视觉的注释的规则有限,从而未能涵盖活动的复杂模式并缺乏组合泛化。为了克服这些缺陷,我们提出了一个新的符号系统,具有两个理想的重要特性:广覆盖的符号和合理的规则。通过手动注释来收集大量的人类知识以实例化这个符号系统是昂贵的。相反,我们利用最近 LLMs(大型语言模型)的进展作为这两个理想属性的近似,即来自大型语言模型的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取并检查视觉内容作为符号,并通过模糊逻辑计算的规则推理出活动的语义。我们的方法在广泛的活动理解任务中显示了优越性。代码和数据可以在此 https URL 找到。