GestureGPT: 大型语言模型代理的零 - shot 交互式手势理解与 grounding

Oct, 2023

GestureGPT: 大型语言模型代理的零 - shot 交互式手势理解与 grounding

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents

Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao...

TL;DR当前的手势识别系统主要集中在识别预定义集合中的手势，无法将这些手势与交互式 GUI 元素或系统功能连接起来。我们引入了 GestureGPT，这是一个新颖的零样本手势理解和基础框架，利用大型语言模型（LLMs）。手势描述基于手势视频中的手部地标坐标构建，并输入到我们的双代理对话系统中。手势代理解码这些描述并查询交互上下文（例如界面、历史、凝视数据），上下文代理组织并提供这些信息。在迭代交互后，手势代理确定用户意图并将其连接到交互功能。我们使用公开的第一视角和第三视角手势数据集验证了手势描述模块，并在两个真实世界环境中进行了整个系统的测试：视频流和智能家居物联网控制。零样本 Top-5 基础准确率最高为 80.11%（视频流）和 90.78%（智能家居任务），展示了这种新的手势理解范式的潜力。

Abstract

Current gesture recognition systems primarily focus on identifying gestures within a predefined set, leaving a gap in connecting these gestures to interactive gui elements or system functions (e.g., linking a 'th

gesture recognition systems interactive gui elements gesturegpt zero-shot gesture understanding gesture description module

发现论文，激发创造

GesGPT: 基于 GPT 的文本解析语音姿态综合技术

提出了一种通过 GPT 提取语义信息并利用手势库和集成模块生成与语音文本相关的语境适当和表现丰富的共同言语手势的姿态生成新方法 GesGPT。

Mar, 2023

大规模语言模型在文本分析中的手势选择

利用大型语言模型（LLMs）适应手势分析和生成，使用 ChatGPT 作为工具建议能够实现设计师意图的上下文特定手势，并且发现 ChatGPT 可以提供不在最小训练数据中的新颖而适当的手势，从而减少繁琐的注释工作，并有潜力快速适应不同的设计意图。

Oct, 2023

ChatGPT 的零 - shot 对话理解初步评估

本文研究了 ChatGPT 在零 - shot 语音理解和对话状态跟踪任务中的理解能力，并发现 ChatGPT 在对话状态跟踪任务中从多轮交互提示中获益，但在语音理解任务的信息填槽中存在困难。此外，我们总结了 ChatGPT 在对话理解任务中的一些意外行为，希望为未来建立基于大语言模型的零 - shot 对话理解系统提供一些见解。

Apr, 2023

PoseGPT：关于三维人体姿势的对话

PoseGPT 是一个框架，利用大型语言模型（LLMs）从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性，不仅简化了姿势预测，而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力，从而在姿势估计上进行推理，创造了两项先进任务：姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法，并开辟了人体姿势分析的新方向。

Nov, 2023

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Nov, 2023

GazeGPT: 使用凝视灵活背景人工智能增强人类能力的智能眼镜

通过使用凝视相关的机制，GazeGPT 作为一种新的用户交互范式，利用眼动追踪技术帮助 LMM 理解用户关注的世界摄像头视野中的对象，显著提高了用户在狗品种分类任务中的准确性，被认为比头部或身体驱动的选择机制更自然，并且在未来的 AI 驱动个人助理中具有重要价值。

Jan, 2024

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

大型语言模型也能分享图片！

该研究探讨了大型语言模型（LLMs），如 InstructGPT，ChatGPT 和 GPT-4，在零样本设置中的图像共享能力，提出了一个两阶段框架，使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述，通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能，此外，我们发现了零样本提示中的紧密共享能力，证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架，我们利用 Stable Diffusion 在预测的转向处生成图像，即 PhotoChat ++，据我们所知，这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。

Oct, 2023

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023