MMApr, 2020

深度多模态神经架构搜索

TL;DR本文提出了一种深度多模态神经网络架构搜索(MMnas)框架, 通过使用基于梯度的 NAS 算法,可以高效地学习不同任务的最佳架构,并设计了一个统一的编码器 - 解码器骨干网络,其中每个编码器或解码器块对应于从预定义的操作池中搜索出来的操作,以及面向不同多模态学习任务的特定头部。实验结果表明,MMnasNet 在三个多模态学习任务上显着优于现有的最先进方法,包括视觉问答、图像文本匹配和视觉定位。