语言模型引导的可解释视频行为推理
提出了一种将 Transformer 模型与强化学习相结合,并在 BabyAI 任务上表现出色的新方法,其中模型输出既包含动作,也包含文本描述。
Apr, 2023
在研究中,我们提出了一种基于大型语言模型的学习框架,使用视频中提取的动作标签和自由形式的描述作为输入,证明了基于文本的视频表示在语言模型时代具有竞争力的表现,并在多个基准测试中取得了最先进的性能。
Nov, 2023
LLaRA: 大型语言和机器人助理是一个框架,将机器人动作策略定义为对话,并在训练中通过辅助数据提供改进的响应;通过将视觉输入与文本提示进行处理,能够生成最优策略决策。
Jun, 2024
通过使用编码器 - 解码器架构、模态分析器和场景图问题解答模型,我们提出了一种新的学习策略,可以提高关于行动效果的推理能力,并在 CLEVR_HYP 数据集上对我们的系统进行了评估。
Dec, 2022
本文介绍了一种用于解释任务对话建模的新型系统,基于离散潜变量表示对话行为。该模型基于变分循环神经网络,无需显式的语义信息。与以前的工作不同,我们的方法分别对系统和用户轮次进行建模,同时执行数据库查询建模,使得该模型适用于任务对话,同时生成易于解释的操作潜变量。我们展示了我们的模型在三个数据集上以较少的监督下在困惑度和 BLEU 方面优于以前的方法,并提出了一种衡量对话成功的新方法,无需专家注释。最后,我们提出了一种关于系统操作的潜变量语义的新方法来解释。
Sep, 2022
通过使用纯指令调整的 Large Multimodal Models(LMMs),我们引入了 LLARVA 模型,该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境,并且利用预测中间的 2D 表达,即 “视觉迹线”,进一步对齐了视觉和动作空间,使得模型在不同的机器人环境和配置中得到了较好的泛化性能。
Jun, 2024
通过构建新的细粒度数据集,提出了适用于层级识别的视频 - 语言学习框架,有效地解决了视频识别中的层级分类问题,对于细分子类尤其效果显著,为视频理解任务中的层级建模铺平了道路。
May, 2024
通过创新地将视频模型与大型语言模型相结合,本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识,从而在开放词汇视频动作识别中实现了新的最佳性能,并具有优越的可解释性。
Dec, 2023
提出了一种基于场景图和深度学习的动作推理框架,通过先前的知识解释视频状态变化的语义级观察结果,该方法可以用逻辑规则和语义级变化观察结果解释其行动推理结果。
Aug, 2019