Jun, 2024

图像文本分类的稳健潜在表示调整

TL;DR通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的有效性。