跨模态蒸馏用于监督迁移

Jul, 2015

Cross Modal Distillation for Supervision Transfer

Saurabh Gupta, Judy Hoffman, Jitendra Malik

TL;DR本研究提出了一个转移不同模态之间图像监督的技术，使用来自有标签模态的表示作为监督信号，训练适用于新的未标注配对模态的表示，实现了对未标注模态的丰富表示的学习，可用作具有有限标记数据的新模态的预训练过程

Abstract

In this work we propose a technique that transfers supervision between images from different modalities. We use learned representations from a large labeled modality as a supervisory signal for training representations for a new unlabeled paired modality. Our method enables learning of

supervision transfer modalities rich representations pre-training rgb images

发现论文，激发创造

交叉学习：跨模态自监督

本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法，得到良好的性能，并证明我们的特征表示可以转移至其他任务。

Nov, 2018

热红外跟踪的无监督跨模态蒸馏

本研究提出利用跨模态蒸馏技术从大量无标签 RGB-TIR 数据中提炼 TIR 模态的目标表示，作为热红外追踪的优化方法，并利用 RGB 和 TIR 图像中的语义信息进行 “蒸馏损失” 的监督学习，成功地推广到 LSOTB-TIR 和 PTB-TIR 数据集中，比基线跟踪器的绝对增益显著。

Jul, 2021

跨模态对比学习蒸馏理论研究

跨模态蒸馏是一个重要主题，用于包含有限知识的数据模态，如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏（CMCD）的通用框架，该框架利用正负对应关系更好地蒸馏可泛化的特征，并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。

May, 2024

自监督跨模态相互蒸馏的三维动作表示学习

本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示，该框架中引入邻域相似性分布来建模每种模态中学到的知识，并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息，该方法在多个数据集上均举行了大量实验，超出了现有的自监督方法并创造了一系列新记录。

Aug, 2022

一阶段模态蒸馏用于不完整多模态学习

基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Sep, 2023

鲁棒的跨模态知识蒸馏技术应用于不受限制的视频

本论文提出了模态噪声过滤和对比语义校准的跨模态蒸馏方法，可以显著提高视觉动作识别和视频检索的性能。

Apr, 2023

跨模态知识蒸馏用于动作识别

研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Oct, 2019

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

知识作为先验：跨模态知识泛化在无优先知识数据集上

本文提出了一种名为 “跨模态知识普适” 的新方法，将一个以高级模态（教师）训练的模型中的知识传递给以较弱模态（学生）训练的另一个模型，同时不需要在教师数据集中配对数据。通过在参数上建模知识，来将源数据集中积累的跨模态知识泛化到目标数据集，最终在标准基准数据集上展示了 3D 手势估计的竞争性表现。

Apr, 2020

Hidden Gems: 使用跨模态监督的 4D 雷达场景流学习

本研究提出了一种新颖的 4D 雷达基于场景流估计的跨模态学习方法，并使用多任务模型体系结构和损失函数，来通过多重跨模态约束有效地进行模型训练，结果表明其在场景流估计上具有良好的表现和实用性。

Mar, 2023