使用最优传输提取特权多模态信息进行表情识别

Jan, 2024

使用最优传输提取特权多模态信息进行表情识别

Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport

Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Marco Pedersoli, Alessandro Koerich...

TL;DR多模情感识别模型在实验室环境中取得了显著的表现，但在野外环境中，由于训练所使用的模态的不可用性或质量问题，这些模型存在困难。通过引入特权信息来进行深度学习模型的训练，以利用仅在训练期间可用的额外模态数据。本文提出一种基于最优输运的结构化知识蒸馏机制 (PKDOT) 方法，通过计算余弦相似度矩阵并选择前 k 个锚点，以得到更稳定的蒸馏过程。实验证明该方法在两个不同问题上的性能优于现有的特权知识蒸馏方法，具有模态和模型无关性。

Abstract

multimodal affect recognition models have reached remarkable performance in the lab environment due to their ability to model complementary and redundant semantic information. However, these models struggle in the wild, mainly because of the unavailability or quality of modalities used

multimodal affect recognition models learning with privileged information knowledge distillation optimal transport structural dark knowledge

发现论文，激发创造

跨模态知识蒸馏增强的多模态表征学习

本文介绍了一种基于多模态表示学习的学生 - 教师框架，并采用了对比学习和对抗学习等方法来优化相互信息和条件熵，以提高视频识别、检索和情感分类等多模态任务的性能。

Jun, 2023

MSD: 多模态理解中的显著性感知知识蒸馏

研究对知识蒸馏在多模态数据集上的应用，提出了一种多模态知识蒸馏框架 MSD，其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法，实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。

Jan, 2021

增强多模态学习：元学习的跨模态知识蒸馏处理缺失模态

我们提出了一种称为元学习的跨模态知识蒸馏的新方法，可以使多模态模型在缺少重要模态的情况下仍具有高准确性。该方法通过自适应估计每种模态的重要性权重，并利用跨模态知识蒸馏将高重要性权重的模态的知识转移到低重要性权重的模态上，从而产生高准确性模型。该方法在多个任务中有效，并实验结果表明在脑肿瘤分割和音视觉 - MNIST 分类方面，优于现有的模型。

May, 2024

多任务强化学习中的知识精炼优化传递

通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Sep, 2023

利用对抗性判别式模态蒸馏技术学习含特殊信息的数据

本研究针对深度学习中的异构数据模态问题提出了一种新的方法 —— 基于对抗学习与特权信息框架下的 RGB-D 视觉任务的幻象网络训练方法，旨在从深度和 RGB 视频中提取信息，使得在测试时，只需要使用 RGB 数据即可。这一方法在 NYUD 数据集的目标分类和最大多模态视频行为识别数据集（NTU RGB+D）以及美国西北大学加洛斯高等研究院的数据集上均取得了领先的结果。

Oct, 2018

元知识蒸馏

本文提出了一种元知识蒸馏（MKD）方法，利用可学习的元温度参数进行元学习，通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏（KD）的退化问题，从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。

Feb, 2022

KNOT：使用最优输运进行知识蒸馏来解决自然语言处理任务

我们提出了一种新的方法，使用最优传输进行知识蒸馏 (KNOT)，从多个教师网络中提取自然语言的语义知识传输到一个学生网络中。此方法通过学习最小化分配给标签的概率分布的最优传输成本到教师模型的概率加权和的学生模型（全局）来训练学生模型，新的语义距离（SD）度量衡量预测和真实标签分布之间的语义接近程度。该方法在三个 NLP 任务上表现出了比基准更好的 SD 性能，并在标准准确性和 F1 度量上与基于熵的蒸馏表现相当。

Oct, 2021

感知模态聚焦假设：跨模态知识蒸馏的理解

本文主要探讨了跨模态知识迁移中知识蒸馏的机制，并提出使用模态 Venn 图和模态聚焦假设来提高跨模态知识迁移的有效性。通过对 6 个多模态数据集的实验结果，证明了作者的假设，并指向未来的改进方向。

Jun, 2022

在线动作检测的特权知识蒸馏

本文提出了一种基于特权信息学习的在线动作检测框架，其中包括知识蒸馏方法和 Privileged Knowledge Distillation (PKD) 方法，以缩小信息差并提高学习性能，并在两个常用的 OAD 基准测试 TVSeries 和 THUMOS14 上取得了当前最佳性能.

Nov, 2020

利用最优传输距离进行知识蒸馏，提高神经跨语言摘要生成的效果

本文提出了基于知识蒸馏的跨语言摘要框架，通过 Sinkhorn Divergence 实现了师生之间的知识转移，并在跨语言摘要数据集上证明了该方法的高效性。

Dec, 2021