用于自监督学习的多模聚类网络：来自无标签视频

ICCVApr, 2021

用于自监督学习的多模聚类网络：来自无标签视频

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos

Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas...

TL;DR本文提出了一个自监督训练框架，通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性，进而学习一个共同的多模态嵌入空间，并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.

Abstract

multimodal self-supervised learning is getting more and more attention as it allows not only to train large networks without human supervision but also to search and retrieve data across various modalities. In this context, this paper proposes a self-supervised training framework that

multimodal self-supervised learning embedding space contrastive learning text-to-video retrieval temporal action localization

发现论文，激发创造

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

自监督多模态学习：综述

本综述论文介绍了自监督多模态学习（SSML）的现状和最新进展，对其目标函数、数据对准和模型架构三个方面进行分类，讨论了训练期间的多模态输入数据配对和对准策略，并回顾了用于图像文本和多模态视频的顶尖模型的具体表现及其在医疗保健、遥感和机器翻译等领域的实际应用。

Mar, 2023

多任务多模态自监督学习的面部表情识别

通过多模态多任务自监督学习方法，利用无标签的野外视频数据，实现了面部表情识别的模型，并在多个基准测试中取得了优秀的性能表现。

Apr, 2024

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构，并获得了最新的性能。

Aug, 2018

利用多模态自监督从零开始标记未标记的视频

本文提出了一种基于音频和视觉的聚类方法，可以实现对视频数据集的无监督标记。经过广泛的分析，结果聚类与人工标签有很高的语义重叠性。同时，该方法也为 Kinetics，Kinetics-Sound，VGG-Sound 和 AVE 等常见视频数据集的无监督标记带来了首批基准结果。

Jun, 2020

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020