关键词multimodal machine learning models
搜索结果 - 2
- MM-Lego:具有最小微调的模块化生物医学多模态模型
本研究提出了多模态 Lego(MM-Lego)框架,它是一个模块化和通用的融合和模型合并方法,可以将任何一组编码器转化为具有竞争力的多模态模型,不需要或仅需要进行最小的微调。通过引入对单模态编码器的包装,MM-Lego 强制实施模态之间的轻 - ICCV语言作为媒介:通过仅文本进行多模态视频分类
通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。