语言模型引导的可解释视频行为推理

CVPRApr, 2024

语言模型引导的可解释视频行为推理

Language Model Guided Interpretable Video Action Reasoning

Ning Wang, Guangming Zhu, HS Li, Liang Zhang, Syed Afaq Ali Shah...

TL;DR通过语言模型引导的可解释的动作识别框架 (LaIAR)，提高了视频模型的性能和可解释性。

Abstract

While neural networks have excelled in video action recognition tasks, their black-box nature often obscures the understanding of their decision-making processes. Recent approaches used inherently →

neural networks interpretable models video action recognition language-guided interpretable action recognition logical reasoning

发现论文，激发创造

行动前先思考：将语言推理与行动交错的统一策略

提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Apr, 2023

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

LLaRA：提升视觉语言策略的机器人学习数据

LLaRA: 大型语言和机器人助理是一个框架，将机器人动作策略定义为对话，并在训练中通过辅助数据提供改进的响应；通过将视觉输入与文本提示进行处理，能够生成最优策略决策。

Jun, 2024

针对虚构视觉语言推理任务的动作 - 效果动力学学习

通过使用编码器 - 解码器架构、模态分析器和场景图问题解答模型，我们提出了一种新的学习策略，可以提高关于行动效果的推理能力，并在 CLEVR_HYP 数据集上对我们的系统进行了评估。

Dec, 2022

使用较少的监督学习可解释的潜在对话动作

本文介绍了一种用于解释任务对话建模的新型系统，基于离散潜变量表示对话行为。该模型基于变分循环神经网络，无需显式的语义信息。与以前的工作不同，我们的方法分别对系统和用户轮次进行建模，同时执行数据库查询建模，使得该模型适用于任务对话，同时生成易于解释的操作潜变量。我们展示了我们的模型在三个数据集上以较少的监督下在困惑度和 BLEU 方面优于以前的方法，并提出了一种衡量对话成功的新方法，无需专家注释。最后，我们提出了一种关于系统操作的潜变量语义的新方法来解释。

Sep, 2022

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024

层次行为识别：基于对比式视频 - 语言方法和层次交互

通过构建新的细粒度数据集，提出了适用于层级识别的视频 - 语言学习框架，有效地解决了视频识别中的层级分类问题，对于细分子类尤其效果显著，为视频理解任务中的层级建模铺平了道路。

May, 2024

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

利用先验知识和状态转换解释视频动作推理

提出了一种基于场景图和深度学习的动作推理框架，通过先前的知识解释视频状态变化的语义级观察结果，该方法可以用逻辑规则和语义级变化观察结果解释其行动推理结果。

Aug, 2019