用户参与的多模态大语言模型活动辅助评估
本研究提出了『Visual Planning for Assistance (VPA)』的任务,通过视频中的行动段落和预测,使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系,从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。
Apr, 2023
多模式大型语言模型在感知和解释任务中显示出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。为填补这一空白,我们引入了一个新颖的基准测试,评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域:抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法,以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性,并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后,我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架,并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。
Oct, 2023
使用语言模型的长期动作预测方法(LALM)在egocentric vision中取得了领先地位,通过整合动作识别模型与视觉-语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
Nov, 2023
该研究全面概述了大型语言模型(LLMs)和多模态LLMs在各种机器人任务中的整合,并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
提出一种高效的方法,通过调整图像多模态语言模型的图像融合模块,利用图像多模态语言模型的先验知识,实现从图像到视频多模态语言模型的资源高效转换,从而提高视频多模态语言模型的时间理解能力,以更少的数据和资源进行训练。
Apr, 2024
该研究介绍了MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉-语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
未来交互界面需要基于用户背景智能地提供快速访问数字行动以减少对多模态信息的摩擦。我们通过一个日记研究搜集数据,生成了数字后续行动的整体设计空间,并使用大型语言模型对多模态感知输入进行处理和预测行动。通过定量评估不同的语言模型技术,我们找到了最有效的技术,并通过交互原型收集了初步用户反馈。
May, 2024
我们提出了一种框架,用于筛选ADL多视角数据集以对LLVM进行优化,从而创建了ADL-X。其中包括10万个RGB视频指令对、语言描述、3D骨骼和动作条件下的物体轨迹。我们推出了LLAVIDAL,一种能够结合3D姿势和相关物体轨迹以了解ADL中复杂时空关系的LLVM。此外,我们还提出了一个新颖的基准ADLMCQ,用于量化LLVM在ADL场景中的性能。在ADL-X上训练时,LLAVIDAL始终在所有ADL评估指标上实现最先进的性能。定性分析揭示了LLAVIDAL在理解ADL中的时间推理能力。数据集的链接详见:this https URL。
Jun, 2024
通过iWISDM环境,我们编制了三个不同复杂度的指令跟踪视觉任务基准,并评估了几种新开发的多模态模型,结果显示多模态模型的指令遵循能力与人类存在较大差距。
Jun, 2024
通过结合基于图像和基于文本的大型语言模型,这篇论文在两个阶段的方法中评估近期多模态大型语言模型在时间活动定位中的有效性,并表明此方法胜过现有的基于视频的大型语言模型;此外,论文还研究了对较小的多模态语言模型进行指导调整的影响,结果显示提高其处理动作查询的能力可生成更加富有表达力和信息量的输出,从而增强其在识别特定时间活动间隔方面的性能;在Charades-STA数据集上的实验结果突显了该方法在推动时间活动定位和视频理解领域的潜力。
May, 2024