VoxML:一种可视化建模语言
Voxel-informed Language Grounder is a language grounding model that leverages 3D geometric information to improve grounding accuracy on SNARE, achieving SOTA results with a 2.0% absolute improvement.
May, 2022
本文介绍了一种基于视觉语言模型的语义抽象框架,可以为机器人在未结构化的三维环境中推理,并学会三维空间和几何推理技能,并在两个开放式三维场景理解任务上进行了实验测试。
Jul, 2022
本文介绍了VoxML作为一种建模语言,其通过常识语义知识将自然语言表达式映射到实时可视化中,涉及HRI和机器人技术中的目标特性概念,旨在将其作为注释语言,支持VoxML的建模目的。
May, 2023
通过引入树增强视觉语言(3VL)模型架构和训练技术,以及我们提出的锚定推理方法和差分相关性(DiRe)可解释性工具,本研究扩展任意图像-文本对的文本内容为分层树状结构,并将该结构引入模型学习的视觉表示,提高了模型的解释能力和组合推理能力,同时展示了锚定和差分相关性工具的应用。
Dec, 2023
我们介绍了Context-Aware MultiModal Learner (CaMML),它是用于调整大型多模态模型 (LMMs)的轻量级模块,通过 seamlessly 将多模态上下文样本集成到大型模型中,使得模型能够从类似的、领域特定的、最新的信息中获取知识并进行基于实地推理。基于 CaMML,我们开发了两个多模态模型,CaMML-7B 和 CaMML-13B,在多个基准数据集上展示出卓越的性能。CaMML-13B 在多个广泛认可的多模态基准数据集中取得了最先进的性能,明显超过 LLaVA-1.5 (13B),而无需集成任何外部资源。此外,我们还进行了广泛的剔除研究以检查 CaMML 的内部工作原理,并进行了定性分析,展示其在处理现实世界中具有挑战性的情况时的有效性。
Jan, 2024
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
提出了一种基于3D感知、推理和行动的生成世界模型的3D-VLA模型,通过引入一系列交互令牌与具体环境进行交互,训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云,并在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进,展示了其在真实世界应用中的潜力。
Mar, 2024
介绍了Scene-LLM,一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的3D视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的3D帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
本研究针对视觉-语言模型(VLM)领域的关键发展问题,提供了当前主流方法的全面概述,对各自的优缺点进行了分析,并建议了一些未被充分探索的研究方向。通过构建高效的VLM Idefics3-8B,显著提升了文档理解能力,并创造了一个比以往大240倍的数据集Docmatix,扩展了相关研究的可能性。
Aug, 2024