May, 2024

Cephalo: 多模态视觉 - 语言模型用于生物启发材料分析与设计

TL;DRCephalo 是一个用于材料科学应用的多模态视觉大型语言模型(V-LLMs),通过集成视觉和语言数据以增强人工智能和多机器人人工智能框架内的理解和互动。通过先进的数据集生成方法,Cephalo 能够准确地提取 PDF 文件中的图像和相应的文本描述,并通过图像和语言处理进行精细的图像 - 文本配对,从而生成高质量、内容相关和合理的训练数据。该模型在成千上万篇科学论文和科学专注的维基百科页面提取的集成图像和文本数据上进行训练,能够解释复杂的视觉场景、生成精确的语言描述,并有效地回答有关图像的问题。该模型的视觉编码器与自回归变换器的组合支持整合模型中的复杂自然语言理解,可以与其他生成方法结合,创建图像 - 文本 - 图像或图像 - 文本 - 三维的处理流水线。通过将来自不同预训练源模型的一组层合并,我们探索了从较小模型到较大模型的发展。这种混合方法充分利用了领域特定的专业知识和一般对话能力,以发挥多个模型的优势。我们研究了包括生物材料、断裂和工程分析、蛋白质生物物理学以及基于昆虫行为的仿生设计等各种应用案例。生成应用包括仿生设计,例如花粉启发的结构材料,以及根据日食照片合成仿生材料微结构。