BriefGPT.xyz
Ask
alpha
关键词
large multimodal model
搜索结果 - 3
Lumen: 开放大型多模态模型的多样视觉能力
大型多模态模型(LMM)是计算机视觉领域的热门研究课题,近期的趋势是进一步拓展和增强 LMM 的感知能力。我们提出了一种名为 Lumen 的新型 LMM 架构,将 LMM 的感知能力学习分解为任务无关和任务特定阶段,在 COCO 检测基准上
→
PDF
4 months ago
MISC:基于大型多模态模型驱动的超低比特率图像语义压缩
该研究提出了一种名为多模态图像语义压缩(MISC)的方法,采用大型多模态模型(LMM)来平衡传统自然感知图像和人工智能生成图像的压缩,实现了一致性和感知结果的优化,节省了 50%的比特率,并在存储和通信领域具有强大的应用潜力。
PDF
4 months ago
探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力
GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot An
→
PDF
8 months ago
Prev
Next