Jan, 2024

使用最优传输提取特权多模态信息进行表情识别

TL;DR多模情感识别模型在实验室环境中取得了显著的表现,但在野外环境中,由于训练所使用的模态的不可用性或质量问题,这些模型存在困难。通过引入特权信息来进行深度学习模型的训练,以利用仅在训练期间可用的额外模态数据。本文提出一种基于最优输运的结构化知识蒸馏机制 (PKDOT) 方法,通过计算余弦相似度矩阵并选择前 k 个锚点,以得到更稳定的蒸馏过程。实验证明该方法在两个不同问题上的性能优于现有的特权知识蒸馏方法,具有模态和模型无关性。