推理中的雙子座:揭示多模態大語言模型中的常識
对大型语言模型在医疗保健行业的潜在价值进行了全面评估,发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可,但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感,需要谨慎部署。为提高性能,采用提示策略,并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。
Feb, 2024
Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.
Dec, 2023
通过对专有和开源多模态大语言模型的定性研究,本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解,主要关注文本、代码、图像和视频四个模态,最终目标是提高 MLLM 透明度,发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制,以实现更可靠的多模态下游应用。
Jan, 2024
这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究,重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现,发现 GPT-4V 以精准简洁的回答著称,而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势,也突显了多模式基础模型领域的发展,为未来的进展铺平了道路。
Dec, 2023
利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。
Jun, 2024
Gemini 模型在医学应用领域的卓越表现面临着挑战,要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini,一类在医学领域具有高度实用性的多模态模型,能够无缝地使用网络搜索,并可以通过定制编码器高效地适应新的模态特征。在 14 个医学基准测试中,Med-Gemini 取得了新的最佳性能,超过了 GPT-4 模型系列,并在多模态基准测试中取得了相对较大的提升。该研究通过突破先前的方法,在长期匿名健康记录和医学视频问答方面展示了 Med-Gemini 的长语境能力和非凡性能,并在医学文本摘要等任务上超越人类专家。尽管在这个安全关键领域中,需要进一步的严格评估,但我们的结果提供了 Med-Gemini 潜力的有力证据。
Apr, 2024
Google Gemini 模型是首个与 OpenAI GPT 系列在各种任务上全面匹敌的模型,本文对该模型的语言能力进行深入探索,并提供第三方客观比较 OpenAI GPT 和 Google Gemini 模型的能力,分析两者各自擅长的领域,并发现对于我们测试的所有任务,Gemini Pro 在准确度上略低于相应的 GPT 3.5 Turbo。
Dec, 2023
通过引入 Mini-Gemini 框架,本论文旨在提升多模视觉语言模型(VLMs)的性能,尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面,进一步挖掘了 VLMs 的潜力,使其能够同时支持图像理解、推理和生成。
Mar, 2024
本研究评估了 GPT-4 在常识推理问题上的表现,重点关注 CommonsenseQA 数据集中的问题,发现 GPT-4 的准确性达到 83%,虽然没有达到人类的水平,但是表现出了很好的潜力,可推动人工智能领域的发展。
Mar, 2023
综合评估了多模态大语言模型的现有评估协议,分类和说明了多模态大语言模型的前沿,介绍了多模态大语言模型在推理密集型任务上的最新趋势,并讨论了当前的实践和未来的发展方向。
Jan, 2024