BriefGPT.xyz
Ask
alpha
关键词
lmm
搜索结果 - 3
PSALM: 基于大型多模型的逐像素分割
PSALM 是基于大型多模态模型(LMM)的强大扩展,用于解决分割任务的挑战,通过引入掩码解码器和精心设计的输入模式来处理各种分割任务,并且能够生成和分类分割掩码,支持多个数据集和任务的联合训练,具有卓越的性能和任务泛化能力,对图像分割领域
→
PDF
4 months ago
Lumen: 开放大型多模态模型的多样视觉能力
大型多模态模型(LMM)是计算机视觉领域的热门研究课题,近期的趋势是进一步拓展和增强 LMM 的感知能力。我们提出了一种名为 Lumen 的新型 LMM 架构,将 LMM 的感知能力学习分解为任务无关和任务特定阶段,在 COCO 检测基准上
→
PDF
4 months ago
探索 GPT-4V 的 OCR 能力:定量和深入评估
GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的 OC
→
PDF
8 months ago
Prev
Next