基于大型多模态模型的石材劣化模式识别

Jun, 2024

基于大型多模态模型的石材劣化模式识别

Identification of Stone Deterioration Patterns with Large Multimodal Models

Daniele Corradetti, Jose Delgado Rodrigues

TL;DR通过对主要基础多模态模型的能力进行评估，我们系统性地研究了这些模型在识别和分类有助于文化遗产保护和修复的石质元素的异常和磨损模式方面的能力，并确定了这些模型在遗产保护与修复领域的优势和劣势。

Abstract

The conservation of stone-based cultural heritage sites is a critical concern for preserving cultural and historical landmarks. With the advent of Large Multimodal Models, as GPT-4omni (OpenAI), Claude 3 Opus (An

conservation stone-based cultural heritage sites large multimodal models anomalies deterioration patterns

发现论文，激发创造

深度原型部件减轻形态学肾结石识别并具有对光度扰动的竞争性稳健性

本研究提出了使用基于深度学习的肾结石识别模型中的原型部件 (PPs) 来生成分类结果，从而使模型具有可解释性和更高的稳健性。

Apr, 2023

石针：面向医疗保健的通用多模态大规模模型框架

Stone Needle 是一种通用的、多模态的大型模型框架，专门用于医疗应用，并能够整合多种不同的模态，以超越单模态系统的限制，从而进行多轮对话的多模态交互，并通过多个实验结果证明相对于单模态系统具有更好的性能。

Jun, 2023

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

基于典型部位检测的可解释深度学习肾结石分类器

该研究使用机器学习建立肾结石图像分类模型，其基于可解释性的子部件原型（PPs）方法，能够提供类似于形态宪法分析（MCA）的解释。

Jun, 2022

社区老龄人群多功能退化建模的深度表示学习

本研究介绍了一种多功能退化建模的新框架，通过利用深度学习，预测健康退化分数并揭示老年人健康历史的潜在异质性，从而提供了对老年人退化多样效应和原因的高效估计和可解释洞察。一个真实案例研究证明了该方法的有效性，为准确建模老年衰退的复杂动态以及应对老龄化人口的医疗挑战做出了重要贡献。

Apr, 2024

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

多模态异常检测与推理的自定义视觉语言基础模型

本研究旨在开发一种适用于多个场景的通用异常检测模型，通过将视觉 - 语言基础模型定制为异常检测器和推理器，并引入多模态提示策略，将领域专家的知识作为条件来指导模型，在多模态输入表示中实现多模态异常检测和推理，从而提高异常检测性能。结果表明，该定制模型能够在不同的数据模态（如图像和点云）中检测异常，尤其适用于多物体场景和时间数据。

Mar, 2024

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

通过对抽象模式的基本概念进行评估，我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析，我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。

Mar, 2024

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023

下水管道 CCTV 检测计划中降解模型的适用性评估

该研究提出了一种评估污水管道降解模型适用性的方法，并表明 Logistic Regression 作为一种较少准确但能够产生一致降解曲线和具有高可解释性的模型，在制定检查计划方面比集成模型更加高效。

Jul, 2023