推理中的雙子座：揭示多模態大語言模型中的常識

Dec, 2023

推理中的雙子座：揭示多模態大語言模型中的常識

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Yuqing Wang, Yun Zhao

TL;DRGoogle 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Abstract

The burgeoning interest in multimodal large language models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their app

multimodal large language models gemini commonsense reasoning tasks evaluation commonsense reasoning capabilities

发现论文，激发创造

Gemini 在医学院：探索多模态大型语言模型在医学挑战问题和幻觉上的能力

对大型语言模型在医疗保健行业的潜在价值进行了全面评估，发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可，但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感，需要谨慎部署。为提高性能，采用提示策略，并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。

Feb, 2024

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

从 GPT-4 到 Gemini 和更远：通过四种方式评估 MLLMs 的一般化能力、可靠性和因果关系

通过对专有和开源多模态大语言模型的定性研究，本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解，主要关注文本、代码、图像和视频四个模态，最终目标是提高 MLLM 透明度，发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制，以实现更可靠的多模态下游应用。

Jan, 2024

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

Gemini 模型在医学领域的能力

Gemini 模型在医学应用领域的卓越表现面临着挑战，要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini，一类在医学领域具有高度实用性的多模态模型，能够无缝地使用网络搜索，并可以通过定制编码器高效地适应新的模态特征。在 14 个医学基准测试中，Med-Gemini 取得了新的最佳性能，超过了 GPT-4 模型系列，并在多模态基准测试中取得了相对较大的提升。该研究通过突破先前的方法，在长期匿名健康记录和医学视频问答方面展示了 Med-Gemini 的长语境能力和非凡性能，并在医学文本摘要等任务上超越人类专家。尽管在这个安全关键领域中，需要进一步的严格评估，但我们的结果提供了 Med-Gemini 潜力的有力证据。

Apr, 2024

Gemini 语言能力深度探析

Google Gemini 模型是首个与 OpenAI GPT 系列在各种任务上全面匹敌的模型，本文对该模型的语言能力进行深入探索，并提供第三方客观比较 OpenAI GPT 和 Google Gemini 模型的能力，分析两者各自擅长的领域，并发现对于我们测试的所有任务，Gemini Pro 在准确度上略低于相应的 GPT 3.5 Turbo。

Dec, 2023

Mini-Gemini: 挖掘多模视觉语言模型的潜力

通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。

Mar, 2024

心智与机器的交汇：揭密 GPT-4 的认知心理学

本研究评估了 GPT-4 在常识推理问题上的表现，重点关注 CommonsenseQA 数据集中的问题，发现 GPT-4 的准确性达到 83％，虽然没有达到人类的水平，但是表现出了很好的潜力，可推动人工智能领域的发展。

Mar, 2023

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024