May, 2022

一个模型,多种模态:文本、声音、图像、视频和代码的稀疏激活方法

TL;DR本文提出了一个能够优秀地处理多模态信息的模型,名为 SkillNet,其不同的参数部分专门用于处理不同的信息模态,并且可以稀疏激活模型参数的相关技能。我们使用自监督预训练方式对五种模态进行了开发,结果表明该模型表现与五个模态特定的微调模型相当。在汉语文本 - 图片检索任务中,我们的系统使用较少的激活参数数目,就实现了比现有优秀的 Wukong {ViT-B} 和 Wenlan 2.0 更高的准确性。