探索 GPT-4V 在海洋分析中的边界：初步案例研究

Jan, 2024

探索 GPT-4V 在海洋分析中的边界：初步案例研究

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng...

TL;DR该研究基于 GPT-4V 进行了海洋分析的初步和综合性案例研究，评估了 GPT-4V 在海洋研究中的性能，并为未来 MLLM 的发展设定了新的标准。实验结果表明，GPT-4V 生成的回应仍远未满足海洋领域的特定需求。

Abstract

large language models (LLMs) have demonstrated a powerful ability to answer various queries as a general-purpose assistant. The continuous multi-modal large language models (MLLM) empower LLMs with the ability to

large language models continuous multi-modal large language models gpt-4v marine analysis domain-specific requirements

发现论文，激发创造

MarineGPT：将海洋的秘密解锁给公众

通过构建多模态联合语义空间，以海洋为专题领域，将 MarineGPT 与海洋相关的图像和文本注入其模型，提供了更敏感、更丰富、更科学的反馈和理解，从而拓展了海洋的了解范围，并为未来的学术和工业研究提供了宝贵的数据和预训练模型。

Oct, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

多模态基础模型在地理、环境、农业和城市规划应用中的承诺与挑战

GPT-4V 在地理学、农业和城市规划领域的绩效评估中展现出潜力，但在一些需要细粒度识别和精确计数的任务中存在局限性。

Dec, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

评估基于任务的多语言语言模型对图表的有效性

我们研究了 GPT-4V 在图表的低级数据分析任务中的有效性，并通过实验结果发现其潜力和局限性，同时提出了一种名为 “Chain-of-Charts” 的新颖文本提示策略，能够提高模型性能并揭示人类分析需求与 GPT-4V 能力之间的差距。

May, 2024

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023