多模态转移深度学习及其在音视频识别中的应用

NIPSDec, 2014

多模态转移深度学习及其在音视频识别中的应用

Multimodal Transfer Deep Learning with Applications in Audio-Visual Recognition

Seungwhan Moon, Suyoun Kim, Haohan Wang

TL;DR这篇论文提出了一种转移学习框架，能将单一模态神经网络的知识迁移到另一个模态的网络上，通过语音数据微调已经训练过的视频识别网络，该方法首先学习抽象表示层中每个网络的类比映射，然后应用神经网络操作进行目标网络的微调，同时保持其拓扑不变，该框架能灵活地适用于任何多模态数据集或已存在的共享基础语义的深度网络。

Abstract

We propose a transfer deep learning (TDL) framework that can transfer the knowledge obtained from a single-modal neural network to a network with a different modality. Specifically, we show that we can leverage <

transfer deep learning single-modal neural network speech data video recognition analogical mapping

发现论文，激发创造

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

用于端到端视频对话系统的多模态 Transformer 网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

记忆中的多模态联想桥接：从面部视频中回溯语音声音

本文提出了一种新颖的音频 - 视觉多模态桥接框架，它可以利用音频和视觉信息，并通过 associative bridge 从记忆网络中获取目标模态表示，将其应用于唇语阅读和静音视频的语音重建，具有当前最先进性能。

Apr, 2022

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

VideoAdviser: 多模态迁移学习的视频知识蒸馏

提出了一种名为 VideoAdviser 的视频知识蒸馏方法，用于实现高效性能的多模块转移学习；通过使用基于 CLIP 的教师模型向基于 RoBERTa 的学生模型提供丰富的多模态知识监督信号，从而在多个挑战性的多模态任务中实现了有效的知识转移。

Sep, 2023