ClawMachine：提取视觉令牌作为实体进行指代和定位

Jun, 2024

ClawMachine：提取视觉令牌作为实体进行指代和定位

ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding

Tianren Ma, Lingxi Xie, Yunjie Tian, Boyu Yang, Yuan Zhang...

TL;DRClawMachine 是一种新的方法，通过直接使用视觉令牌来编码实体，统一了视觉引用和定位的自动回归格式，并通过仅有解码器的架构进行学习，实现了对视觉引用和定位任务的竞争性表现，并减少了对训练数据的需求。此外，ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力，这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。

Abstract

An essential topic for multimodal large language models (MLLMs) is aligning vision and language concepts at a finer level. In particular, we devote efforts to encoding visual referential information for tasks suc

multimodal large language models vision and language concepts visual referential tasks clawmachine visual reasoning

发现论文，激发创造

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024

通过文本生成解决视觉驱动对话中的引用

通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型（VLMs）的话语处理能力，并使用预训练的 VLMs 在零样本情况下识别参照物，从而提高了参照的准确性和效果。

Sep, 2023

面向可计算验证的语言模型语义基础研究

本文提出了一种语义基础的语言模型方法，将语言模型嵌入到自编码器中，在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性，使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验，并通过人工评估验证了自动评估实验的结果。

Nov, 2022

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

基于视觉语言变换器的新兴定位特性

采用预训练的视觉 - 语言模型，并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制，可以实现无需微调的零样本开放词汇的目标定位，并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务和语义分割数据集上评估 GEM 框架，结果表明 GEM 不仅胜过其他无需训练的开放词汇定位方法，而且在最近提出的 OpenImagesV7 大规模分割基准测试中取得了最先进的结果。

Dec, 2023

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

实体增强代码生成

该论文通过引入可检索增强的大型语言模型（LLMs），拓展了检索增强 LLMs 的应用领域，以代码生成为例，并提出了一种新颖的可训练架构，将可检索实体注入到 LLM 解码器中，以解决现有模型在相似实体名之间无法分配相关性分数的问题，并在多个场景下超越常见基准模型，包括项目级代码生成、Bash 和 SQL 脚本。

Dec, 2023