PSALM: 基于大型多模型的逐像素分割

Mar, 2024

PSALM: 基于大型多模型的逐像素分割

PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai

TL;DRPSALM 是基于大型多模态模型（LMM）的强大扩展，用于解决分割任务的挑战，通过引入掩码解码器和精心设计的输入模式来处理各种分割任务，并且能够生成和分类分割掩码，支持多个数据集和任务的联合训练，具有卓越的性能和任务泛化能力，对图像分割领域具有潜力。

Abstract

psalm is a powerful extension of the Large Multi-modal Model (lmm) to address the segmentation task challenges. To overcome the limitation of the

psalm lmm segmentation tasks mask tokens computer vision

发现论文，激发创造

PixelLM：使用大型多模型进行像素推理

通过引入 PixelLM，一种高效且有效的大规模多模态模型，该论文解决了对涉及多个开放世界目标的图像推理任务生成像素级掩码的挑战，并在多个基准测试中表现出色，证实了各个组成部分的有效性。

Dec, 2023

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024

Osprey: 像素理解与视觉指令调整

通过融入精细的遮罩区域来实现像素级视觉理解的 Osprey 视觉 - 语言模型以及其在多种区域理解任务中的卓越性能，尤其是与 Segment Anything Model (SAM) 的无缝集成，实现多层次的语义理解。

Dec, 2023

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

PA-SAM：高质量图像分割的指示适配器 SAM

通过引入一种新型的提示驱动适配器（PA-SAM）到 Segment Anything Model (SAM) 中，提高了原始 SAM 的分割掩模质量，通过在稀疏和密集提示级别上优化面罩解码器功能，从图像中提取详细信息，实验结果表明 PA-SAM 在高质量、零样本和开放集分割方面优于其他基于 SAM 的方法。

Jan, 2024

PP-LiteSeg: 一种优秀的实时语义分割模型

本文提出了一种轻量级的语义分割模型 PP-LiteSeg，其中包括一个灵活和轻量级的解码器（FLD），一个统一的注意力融合模块（UAFM）和一个简单的金字塔池化模块（SPPM），通过减少计算开销和融合输入特征来加强特征表示，结果表明 PP-LiteSeg 在准确性和速度之间取得了卓越的折衷。

Apr, 2022

通用粗细视觉语言模型设计：万能任务大师

这篇研究论文介绍了 VistaLLM，一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统，它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征，以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列，VistaLLM 显著提高了性能，并在广泛的任务中实现了领先的结果。

Dec, 2023

基于视觉基础模型的病理原始分割与零样本蒙版生成

通过对 SAM 进行自适应预训练图像编码器以进行基于检测的区域提议，我们的方法在病理学领域的两个基本分割任务中达到了与最先进模型相媲美的 F1 得分（细胞核检测）和二进制 / 多类别 panoptic（bPQ/mPQ）和掩模质量（dice），同时实现了端到端效率。

Apr, 2024

SALM: 基于语境学习的语音增强语言模型用于语音识别和翻译

我们提出了一种新颖的具有多任务和上下文学习能力的语音增强语言模型（SALM）。SALM 由一个固定的文本语言模型，一个音频编码器，一个模态适配器模块和适应语音输入和关联任务指令的 LoRA 层组成。统一的 SALM 不仅在自动语音识别（ASR）和语音翻译（AST）等特定任务上达到了与 Conformer 基线相当的性能，还展现了零 - shot 的上下文学习能力，通过 ASR 和 AST 的关键词增强任务进行了验证。此外，我们提出了语音监督上下文训练方法，弥合了 LLM 训练和下游语音任务之间的差距，进一步提升了语音到文本模型的上下文学习能力。所提出的模型通过 NeMo 工具包开源。

Oct, 2023

Lumen: 开放大型多模态模型的多样视觉能力

大型多模态模型（LMM）是计算机视觉领域的热门研究课题，近期的趋势是进一步拓展和增强 LMM 的感知能力。我们提出了一种名为 Lumen 的新型 LMM 架构，将 LMM 的感知能力学习分解为任务无关和任务特定阶段，在 COCO 检测基准上显著超越现有的基于 LMM 的方法，并展现了对其他视觉任务的无缝可扩展性。

Mar, 2024