映射未知：使用基础模型的统一提示式全景映射与动态标注

May, 2024

映射未知：使用基础模型的统一提示式全景映射与动态标注

Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models

Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer

TL;DR通过使用自然语言提示词，我们介绍了统一的可提示全景映射（UPPM）方法，将动态标注策略与传统的全景映射技术相结合，实现实时、按需的标签生成，并在场景重建中表现出良好的适应性和多功能性。

Abstract

In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with compl

semantic mapping robotics computer vision unified promptable panoptic mapping natural language prompts

发现论文，激发创造

FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强

基于视觉 - 语言基础模型，本研究提出了一种概率标签融合方法，用于从开放集标签测量中预测闭合集语义类别，以增强基于实例感知的语义映射；通过整合各模块构建一个统一的语义映射系统，并通过 ScanNet 和 SceneNN 数据集评估了方法的零样本性能，取得了显著优于传统方法的 40.3 均值平均精度（mAP）的结果。

Feb, 2024

无需训练的无监督视觉 - 语言模型提示

从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP)，它在无需训练或标记的情况下最大程度地保留了内在的表现能力，并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后，我们使用实例置信度和原型分数来选择代表性样本，这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM)，它考虑了特征级和语义级相似度，以计算每个测试图像与缓存样本之间的距离，作为相应缓存标签的权重，进而生成基于相似度的预测概率。通过这种方式，TFUP 在多个分类数据集上实现了令人惊讶的性能，甚至超过了基于训练的方法。在我们的 TFUP 基础上，我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外，TFUP-T 还采用了额外的边际分布熵损失，从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比，我们的 TFUP-T 实现了新的最先进的分类性能。特别是，在最具挑战的 Domain-Net 数据集上，TFUP-T 将 POUF 的分类准确度提高了 3.3%。

Apr, 2024

通过图像提示构建训练无关的开放世界分割基础模型

通过使用图像概念传达的视觉概念，本研究首次探索了使用基础模型进行开放世界理解的方法，提出了一种名为图像提示分割（IPSeg）的新方法，该方法利用了图像提示技术，通过提取强大的特征，并通过新颖的特征交互模块将输入图像的表示与提示图像的表示进行匹配，以生成突出显示输入图像中目标对象的点提示，并进一步利用生成的点提示来指导 Segment Anything Model 对输入图像中的目标对象进行分割，从而消除了繁琐的训练过程，提供更高效和可扩展的解决方案。

Oct, 2023

针对少样本文本分类的统一提示调整

该论文提出了一种统一的 Prompt Tuning (UPT) 框架，通过从非目标自然语言处理数据集中明确捕获提示语义，使 BERT 风格模型在少样本文本分类方面取得更好的性能，该框架引入了一种新的编程范例 Prompt-Options-Verbalizer，强制 PLMs 捕获任务不变提示知识，经过多任务学习后，该模型可以更好地针对任何不同的低资源任务进行提示调整。

May, 2022

点云统一全景分割

本文提出了一个简单、高效的基于点云的全景分割框架 (PUPS), 使用一组点级分类器以端到端的方式直接预测语义和实例分组。通过将二分图标准添加到训练管道中，并使用 Transformer 解码器进行迭代优化，PUPS 实现了更好的分组结果，并解决了类别不平衡问题，并取得了 SemanticKITTI 全景分割任务的第一名和 nuScenes 上的最新成果。

Feb, 2023

理解与改善视觉提示：标签映射视角

本论文讨论了思考视觉提示、标签映射和迁移学习等一系列问题，提出了 ILM-VP 和 CLIP-VP 等新的提示方法，并在多个数据集上实现了进一步提升精度的效果。

Nov, 2022

UP-DP: 无监督任务学习用于视觉语言模型的数据预选

本研究通过一次遍历未标记数据集来为有限的标注预算优化性能，从而研究数据预选任务。我们引入了 UP-DP，一种简单而有效的无监督提示学习方法，通过适应 BLIP-2 等视觉语言模型进行数据预选，获得了改进表示的联合特征。在七个基准数据集的不同设置下，我们广泛比较了我们的方法与最先进的方法，取得了 20% 的性能提升。据我们所知，UP-DP 是首个将无监督提示学习引入视觉语言模型中进行数据预选的工作。

Jul, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

UPAR：提升大型语言模型能力的康德启发式提示框架

借鉴康德的先验哲学，我们提出了 UPAR 提示框架，通过四个阶段（理解、计划、执行、反思）模拟人类认知结构，在提取结构化信息、先前规划解决方案、按计划执行和自我反思方面，显著增强了 LLM 推理的可解释性和准确性。此外，我们的工作为现有提示技术建立了认识论基础，为这些方法的系统整合提供可能。在 GSM8K 的具有挑战性的子集中，与 COT 基线的 22.92% 相比，我们的方法使准确率提升至 58.33%；在因果判断任务中，准确率从 67.91% 提高到 75.40%。

Sep, 2023

POUF: 面向提示的无监督微调大规模预训练模型

本研究提出一种无监督的精调框架，用于快速和直接地向未标记的目标数据进行深度学习模型的预训练，并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。

Apr, 2023