Mar, 2024

MoAI:大规模语言和视觉模型的全智能混合

TL;DR通过利用外部计算机视觉模型的输出所获取的辅助视觉信息,本文介绍了一种新型的大型语言和视觉模型(LLVM),名为混合智能(MoAI),通过整合视觉特征、外部模型的辅助特征和语言特征来在各种零样本视觉语言任务中显著优于其他 LLVMs,并且不需要增加模型大小或专门制定额外的视觉指令微调数据集。