Sep, 2023

一阶段模态蒸馏用于不完整多模态学习

TL;DR基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。