Oct, 2023

GestureGPT: 大型语言模型代理的零 - shot 交互式手势理解与 grounding

TL;DR当前的手势识别系统主要集中在识别预定义集合中的手势,无法将这些手势与交互式 GUI 元素或系统功能连接起来。我们引入了 GestureGPT,这是一个新颖的零样本手势理解和基础框架,利用大型语言模型(LLMs)。手势描述基于手势视频中的手部地标坐标构建,并输入到我们的双代理对话系统中。手势代理解码这些描述并查询交互上下文(例如界面、历史、凝视数据),上下文代理组织并提供这些信息。在迭代交互后,手势代理确定用户意图并将其连接到交互功能。我们使用公开的第一视角和第三视角手势数据集验证了手势描述模块,并在两个真实世界环境中进行了整个系统的测试:视频流和智能家居物联网控制。零样本 Top-5 基础准确率最高为 80.11%(视频流)和 90.78%(智能家居任务),展示了这种新的手势理解范式的潜力。