May, 2023

图像 - 语言学习的联合自适应表示

TL;DR通过联合学习紧凑的视觉和语言表示形式以及使用自适应的、迭代融合多模态特征的方法来实现图像 - 语言学习,并增加数据效率和降低计算复杂度。该方法相比于当前流行的图像 - 语言模型而言,可降低 33% 的浮点数操作次数,同时提高性能,而只需要较少的数据和计算资源,这比使用更大的数据集和 FLOPs 几乎是 2-20 倍的最新模型更为优秀。