VoxML：一种可视化建模语言

Oct, 2016

VoxML: A Visualization Modeling Language

James Pustejovsky, Nikhil Krishnaswamy

TL;DR本篇文章介绍了 VoxML 这种建模语言的规范，它可以编码三维模型表示的现实世界对象的语义知识，以及与之相关的事件和属性，旨在通过允许编码广泛的语义知识来克服现有 3D 可视化标记语言的局限性，从而使用表示其语义值的概念对象对真实场景进行多模态仿真。

Abstract

We present the specification for a modeling language, voxml, which encodes semantic knowledge of real-world objects represented as three-dimensional models, and of events and attributes related to and enacted ove

发现论文，激发创造

基于Voxel的语言基础

Voxel-informed Language Grounder is a language grounding model that leverages 3D geometric information to improve grounding accuracy on SNARE, achieving SOTA results with a 2.0% absolute improvement.

May, 2022

语义抽象：从2D视觉语言模型实现开放式三维场景理解

本文介绍了一种基于视觉语言模型的语义抽象框架，可以为机器人在未结构化的三维环境中推理，并学会三维空间和几何推理技能，并在两个开放式三维场景理解任务上进行了实验测试。

Jul, 2022

VoxML作为注释语言的抽象规范

本文介绍了VoxML作为一种建模语言，其通过常识语义知识将自然语言表达式映射到实时可视化中，涉及HRI和机器人技术中的目标特性概念，旨在将其作为注释语言，支持VoxML的建模目的。

May, 2023

VoxPoser：使用语言模型构建可组合的三维价值地图，实现机器人操作

使用大型语言模型综合视觉-语言模型，生成适用于各种机器人操作的闭环轨迹。

Jul, 2023

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像-文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

CaMML: 大模型的上下文感知多模态学习器

我们介绍了Context-Aware MultiModal Learner (CaMML)，它是用于调整大型多模态模型 (LMMs)的轻量级模块，通过 seamlessly 将多模态上下文样本集成到大型模型中，使得模型能够从类似的、领域特定的、最新的信息中获取知识并进行基于实地推理。基于 CaMML，我们开发了两个多模态模型，CaMML-7B 和 CaMML-13B，在多个基准数据集上展示出卓越的性能。CaMML-13B 在多个广泛认可的多模态基准数据集中取得了最先进的性能，明显超过 LLaVA-1.5 (13B)，而无需集成任何外部资源。此外，我们还进行了广泛的剔除研究以检查 CaMML 的内部工作原理，并进行了定性分析，展示其在处理现实世界中具有挑战性的情况时的有效性。

Jan, 2024

Vi(E)va LLM！基于生成AI可视化的评估和解释概念栈

通过我们提出的评估方法和平台 EvaLLM，我们解决并评估了大型语言模型生成可视化的问题，并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。

Feb, 2024

3D-VLA：一个基于三维视觉-语言-动作的生成式世界模型

提出了一种基于3D感知、推理和行动的生成世界模型的3D-VLA模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

构建和更好理解视觉-语言模型：洞察与未来方向

本研究针对视觉-语言模型(VLM)领域的关键发展问题，提供了当前主流方法的全面概述，对各自的优缺点进行了分析，并建议了一些未被充分探索的研究方向。通过构建高效的VLM Idefics3-8B，显著提升了文档理解能力，并创造了一个比以往大240倍的数据集Docmatix，扩展了相关研究的可能性。

Aug, 2024