Nov, 2024
多模态分割与增强视觉基础模型、卷积神经网络及不确定性量化的高速度视频相位检测数据处理
MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation
Models, Convolutional Neural Networks, and Uncertainty Quantification for
High-Speed Video Phase Detection Data
TL;DR本研究针对传统分割模型在多模态数据中的像素级准确性和泛化能力不足的问题,提出了MSEG-VCUQ框架。本框架结合了卷积神经网络和基于变换器的视觉模型,通过不确定性量化提高分割准确性并支持跨数据集泛化。实验结果表明,VideoSAM在复杂相边界环境下表现优越,提供可靠的分割输出,促进高速度视频分析的进步。