Mini-Gemini: 挖掘多模视觉语言模型的潜力

Mar, 2024

Mini-Gemini: 挖掘多模视觉语言模型的潜力

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen...

TL;DR通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。

Abstract

In this work, we introduce mini-gemini, a simple and effective framework enhancing multi-modality vision language models (vlms). Despite t

mini-gemini multi-modality vision language models vlms high-resolution visual tokens high-quality data

发现论文，激发创造

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

分阶段训练方法和生成 vokens 提高大型语言模型在视觉和语言生成方面的效果。

Oct, 2023

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

推理中的雙子座：揭示多模態大語言模型中的常識

Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Dec, 2023

MiniGPT-v2：大型语言模型作为视觉语言多任务学习的统一接口

利用 MiniGPT-v2 建立一个统一的界面，有效地处理各种视觉 - 语言任务，包括图像描述、视觉问答和视觉定位等，并通过使用唯一标识符提高模型在每个任务中的学习效率。

Oct, 2023

评估基于生成式的大型多模态模型与基于微调的视觉转换器在基于图像的安全应用中的功效

研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果，发现 Gemini-pro 在准确性和可靠性方面存在明显差异，而精调的 ViT 模型在两个任务上表现出色，达到近乎完美的性能。

Mar, 2024

MiniVLM: 一个更小更快的视觉语言模型

本文提出 MiniVLM，一个轻量、快速的视觉 - 语言模型，采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比，模型大小减少 73％，推理时间成本降低 94％，在多个视觉 - 语言任务上准确率保持 94-97％。希望 MiniVLM 可以用于边缘应用。

Dec, 2020

Gemini 在医学院：探索多模态大型语言模型在医学挑战问题和幻觉上的能力

对大型语言模型在医疗保健行业的潜在价值进行了全面评估，发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可，但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感，需要谨慎部署。为提高性能，采用提示策略，并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。

Feb, 2024