May, 2023

交替梯度下降和专家混合模型用于综合多模态感知

TL;DR该研究介绍了一种称为 “Integrated Multimodal Perception(IMP)” 的多模态多任务训练和建模方法,采用转换编码器对图像、视频、文本和音频等多模态输入进行整合处理,在一系列下游任务中实现了竞争性能和提高。在零样本视频分类方面取得了显著的性能提升,达到了此前所未有的最新水平。