Jul, 2024

ModalChorus: 多模态嵌入的视觉探测和对齐通过模态融合图

TL;DRModalChorus是一种用于视觉和语言多模态嵌入的交互式系统,通过Modal Fusion Map(MFM)嵌入探索和对齐,提高交叉模态特征表达和模型性能,适用于跨模态任务。