Cephalo: 多模态视觉 - 语言模型用于生物启发材料分析与设计

May, 2024

Cephalo: 多模态视觉 - 语言模型用于生物启发材料分析与设计

Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design

Markus J. Buehler

TL;DRCephalo 是一个用于材料科学应用的多模态视觉大型语言模型（V-LLMs），通过集成视觉和语言数据以增强人工智能和多机器人人工智能框架内的理解和互动。通过先进的数据集生成方法，Cephalo 能够准确地提取 PDF 文件中的图像和相应的文本描述，并通过图像和语言处理进行精细的图像 - 文本配对，从而生成高质量、内容相关和合理的训练数据。该模型在成千上万篇科学论文和科学专注的维基百科页面提取的集成图像和文本数据上进行训练，能够解释复杂的视觉场景、生成精确的语言描述，并有效地回答有关图像的问题。该模型的视觉编码器与自回归变换器的组合支持整合模型中的复杂自然语言理解，可以与其他生成方法结合，创建图像 - 文本 - 图像或图像 - 文本 - 三维的处理流水线。通过将来自不同预训练源模型的一组层合并，我们探索了从较小模型到较大模型的发展。这种混合方法充分利用了领域特定的专业知识和一般对话能力，以发挥多个模型的优势。我们研究了包括生物材料、断裂和工程分析、蛋白质生物物理学以及基于昆虫行为的仿生设计等各种应用案例。生成应用包括仿生设计，例如花粉启发的结构材料，以及根据日食照片合成仿生材料微结构。

Abstract

We present cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating

cephalo multimodal vision large language models materials science applications dataset generation method integrated image and text data generative methods

发现论文，激发创造

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

科学图像解读的多模态深度学习

该研究提出了一种新的方法，通过多模态深度学习框架从文本和视觉数据中提取洞察力，以模拟和评估人类对扫描电子显微镜 (SEM) 图像（特别是玻璃材料）的交互。我们的模型（GlassLLaVA）在解释、特征识别和检测以前未见的 SEM 图像中的缺陷方面表现出色，为科学成像应用引入了多用途的评估指标，进一步缩小人与机器解释在科学成像中的差距，为未来研究和广泛应用提供了广阔的可能性。

Sep, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

生物和仿生材料力学的对话式大型语言模型 BioinspiredLLM

通过自动回归变换器大型语言模型 BioinspiredLLM，我们可以加速发现并指导研究，通过该模型可以提供信息回忆、协助研究任务和推动创造力等功能，同时它还能与其他生成式人工智能模型协作，重塑传统材料设计流程。

Sep, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024