LLMs 游戏:利用大型语言模型发现活动中的结构构建
使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位,通过整合动作识别模型与视觉 - 语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
Nov, 2023
人的推理可以理解为直觉、联想的 “系统 1” 和理性、逻辑的 “系统 2” 之间的协作。对于现有的视觉活动理解中的 “系统 1” 类似方法,整合 “系统 2” 处理以提高解释性、泛化性和数据效率至关重要。人类活动推理的一种可能路径是构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,暗示人类的知识和推理能力。先前的方法在不断进步,但由于手工制作的符号数量有限和基于视觉的注释的规则有限,从而未能涵盖活动的复杂模式并缺乏组合泛化。为了克服这些缺陷,我们提出了一个新的符号系统,具有两个理想的重要特性:广覆盖的符号和合理的规则。通过手动注释来收集大量的人类知识以实例化这个符号系统是昂贵的。相反,我们利用最近 LLMs(大型语言模型)的进展作为这两个理想属性的近似,即来自大型语言模型的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取并检查视觉内容作为符号,并通过模糊逻辑计算的规则推理出活动的语义。我们的方法在广泛的活动理解任务中显示了优越性。代码和数据可以在此 https URL 找到。
Nov, 2023
这篇论文介绍了一种使用大型语言模型(LLM)融入到代理框架中的创新方法,用于灵活高效的个性化移动生成,并重点解决了将 LLMs 与现实世界的城市移动数据对接的三个研究问题:将 LLMs 与丰富的活动数据对接、开发可靠的活动生成策略以及探索 LLMs 在城市移动中的应用。
Feb, 2024
通过将大型语言模型视为动作识别器,并采用语言投影过程将骨架动作序列转化为 “动作句子”,提出了一种新颖的 LLM-AR 框架,通过结合多种设计进一步促进语言投影过程,验证了该框架的有效性。
Mar, 2024
通过 LSTM 模型构建 2 阶段深层次模型,从而更好地理解群体活动,利用这些动态实现群体活动识别,实验结果表明,该模型可以有效提高群体活动识别性能。
Nov, 2015
通过生成式人工智能从文本描述中自动生成虚拟 IMU 数据,人类活动识别(HAR)领域能够解决有限标注数据的问题。此外,还探讨了生成式人工智能在生成基准数据集、特定于 HAR 的模型开发、HAR 中的层次结构探索、复杂活动分解以及健康感知和活动总结等领域有着前景的研究方向。
Oct, 2023