Jun, 2024

通过动态路径定制实现图像字幕

TL;DR本文探索一种新颖的动态网络以应对视觉和语言任务,其中推理结构针对不同输入动态定制。通过引入基本单元并在空间和通道运算领域分组,以构建丰富的路径空间和提升路径选择效率,我们设计了一个空间 - 通道联合路由器来根据输入样本的空间和通道信息进行路径定制,并在 MS-COCO 数据集上进行实验证明了提出的动态变压器网络的有效性,获得了 Karpathy 分割和在线测试服务器上的最新最佳性能。