Jul, 2024

DenseFusion-1M:融合多种视觉专家的全面多模态感知

TL;DR用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合,从未筛选过的LAION数据集选择了100万张高度代表性的图片,生成了密集描述数据集,通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力,验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。