Apr, 2025

视觉语言模型是否能够理解和解释行人的动态手势?针对协作自动驾驶车辆的指令性非语言命令的初步数据集与探索

TL;DR本研究针对自动驾驶中交通手势的正确解读问题,探讨了当前先进的视觉语言模型(VLMs)在零样本情况下的理解能力。研究创建并公开了两个包含不同形式和 informal 手势的数据集,并发现现有模型在手势理解方面的准确性不足,强调了在该领域进一步研究的必要性。