鲁棒的跨模态知识蒸馏技术应用于不受限制的视频

Apr, 2023

鲁棒的跨模态知识蒸馏技术应用于不受限制的视频

Robust Cross-Modal Knowledge Distillation for Unconstrained Videos

Wenke Xia, Xingjian Li, Andong Deng, Haoyi Xiong, Dejing Dou...

TL;DR本论文提出了模态噪声过滤和对比语义校准的跨模态蒸馏方法，可以显著提高视觉动作识别和视频检索的性能。

Abstract

cross-modal distillation has been widely used to transfer knowledge across different modalities, enriching the representation of the target unimodal one. Recent studies highly relate the temporal synchronization between vision and sound to the semantic consistency for →

cross-modal distillation modality noise filter contrastive semantic calibration visual action recognition video retrieval task

发现论文，激发创造

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

跨模态对比学习蒸馏理论研究

跨模态蒸馏是一个重要主题，用于包含有限知识的数据模态，如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏（CMCD）的通用框架，该框架利用正负对应关系更好地蒸馏可泛化的特征，并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。

May, 2024

跨模态知识蒸馏用于动作识别

研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态，提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法，使得几乎达到了使用完全监督训练的学生网络的精度。

Oct, 2019

C2KD: 跨语言跨模态知识蒸馏在多语言文本 - 视频检索中的应用

本研究提出了一种跨语言跨模态知识蒸馏的方法，使用跨语言文本数据训练学生模型，以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。

Oct, 2022

自监督跨模态相互蒸馏的三维动作表示学习

本文提出了一种新的跨模态交互知识蒸馏框架 Cross-modal Mutual Distillation (CMD) 来学习自监督的三维动作表示，该框架中引入邻域相似性分布来建模每种模态中学到的知识，并使用非对称配置来稳定蒸馏过程和在模态之间传输高置信度的信息，该方法在多个数据集上均举行了大量实验，超出了现有的自监督方法并创造了一系列新记录。

Aug, 2022

跨模态通用蒸馏方法用于文本 - 视频检索

这篇论文探索了利用大规模预训练的多个文本编码器设计的算法，提出了一种新颖的综合蒸馏方法 TeachText，并将其拓展应用到视频检索上，在多个视频检索基准上超过了现有技术，而且在测试时不会增加计算负荷。

Apr, 2021

基于对比学习的光谱知识蒸馏在语义分割中的多模态和缺失模态场景下的应用

通过使用多光谱信息来提高语义分割模型的性能对于低光和恶劣环境至关重要。提出了一种名为 CSK-Net 的新型多模态融合方法，它利用对比学习为光学（EO）和红外（IR）图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法不仅在多模态任务上超过了现有的模型，而且在缺失模态的情况下，仅利用 IR 数据进行推断就能提高性能，而与基线分割模型相比，并没有额外的计算成本。

Dec, 2023

增强多模态学习：元学习的跨模态知识蒸馏处理缺失模态

我们提出了一种称为元学习的跨模态知识蒸馏的新方法，可以使多模态模型在缺少重要模态的情况下仍具有高准确性。该方法通过自适应估计每种模态的重要性权重，并利用跨模态知识蒸馏将高重要性权重的模态的知识转移到低重要性权重的模态上，从而产生高准确性模型。该方法在多个任务中有效，并实验结果表明在脑肿瘤分割和音视觉 - MNIST 分类方面，优于现有的模型。

May, 2024

语音到视频生成的跨模态蒸馏技术（Speech2Video: Cross-Modal Distillation for Speech to Video Generation）

这篇研究论文介绍了一种仅基于语音生成说话脸部视频的全新方法，并提出了一种轻量级的跨模态蒸馏方法，这种方法能够从未标记的视频输入中提取出情感和身份信息，然后使用对抗生成网络将提取的特征整合到说话脸部视频片段中，实验结果表明这一提出的框架能够从语音中捕获情感表达，生成的视频具有自发的面部动作，且在情感表达方面优于已有的算法。

Jul, 2021

可学习的跨模态知识蒸馏在多模态学习中的应用与缺失模态

本文提出了一种可学习的跨模态知识蒸馏（LCKD）模型，通过从最佳性能模态中提取有用信息，自适应地识别重要模态并将知识蒸馏给其他模态，从而解决了缺失模态问题，实验证明 LCKD 在肿瘤分割中的表现超过其他方法，分割 Dice 分数提高了 3.61％、5.99％和 3.76％。

Oct, 2023