从不配对的多视角语义对齐中学习以实现自我中心视频识别

Aug, 2023

从不配对的多视角语义对齐中学习以实现自我中心视频识别

Learning from Semantic Alignment between Unpaired Multiviews for Egocentric Video Recognition

Qitong Wang, Long Zhao, Liangzhe Yuan, Ting Liu, Xi Peng

TL;DR通过构建跨视角伪 pairs 并利用视频的语义信息进行视图不变性对齐以及进行第一人称和第三人称视频的视频文本对齐，我们提出了基于语义的非配对多视图学习（SUM-L）来解决非配对多视图学习问题。在多个基准数据集上的实验证实了我们的框架的有效性，并且在更具挑战性的场景下，我们的方法也优于现有的视图对齐方法。

Abstract

We are concerned with a challenging scenario in unpaired multiview video learning. In this case, the model aims to learn comprehensive multiview representations while the cross-view semantic information exhibits variations. We propose Semantics-based Unpaired Multiview Learning (SUM-L) to tackle this unpaired multiview learning problem. The key idea is to bu

unpaired multiview video learning semantics-based unpaired multiview learning (sum-l)cross-view pseudo-pairs view-invariant alignment video-text alignment

发现论文，激发创造

多视角伪标记用于视频半监督学习

我们提出了一种多视角伪标记方法来进行视频学习，它利用外观和运动信息的互补视角进行半监督学习，以获取更可靠的伪标签并比纯监督数据学习更强的视频表示。我们的方法在多个视频识别数据集上大大优于其监督对应方法，并在自监督视频表示学习的标准基准测试中与先前的工作相比具有竞争优势，同时仍然训练一个共享外观和运动输入的模型，因此在推理时间不会产生额外的计算开销。

Apr, 2021

多视角视频摘要的多视角度量学习

本文为解决多视角视频摘要问题，提出了一种基于多视角度量学习框架，结合最大间隔聚类和不一致性最小化准则的系统性解决方案。通过实验验证，证明了该方法的有效性.

May, 2014

受监督的多空间多粒度对齐视频文本检索

本研究提出了一种新的多空间多粒度监督学习框架 SUMA，用于学习视频和文本之间的对齐表示空间，其中初始对齐空间由一定数量的概念聚类初始化。实验结果表明，SUMA 相比现有方法具有更好的性能。

Feb, 2023

通过学习未配对数据的视频摘要

本文探讨了视频摘要的问题，并提出了一种从未配对数据中学习视视频摘要的方法，该方法使用对抗性目标并对生成的视视频摘要施加多样性限制，实验结果表明该方法显着优于其他替代方法。

May, 2018

通过联合嵌入和稀疏优化实现多视角监视视频汇总

介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频，该方法能够提取出多视角视频之间的复杂内部和外部关联，实现高效准确的摘要生成。

Jun, 2017

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

EAGLE: 跨视角理解中高效自适应基于几何的学习

通过引入新的无监督跨视图适应学习方法，我们解决了语义场景理解中不同摄像头视角的几何结构变化建模问题，并在不同跨视图适应基准上证明了我们方法在跨视图建模方面的有效性，与之前的无监督领域适应和开放词汇语义分割方法相比，实现了最先进的性能。

Jun, 2024

半监督式少样本学习的神经视图合成与匹配于 3D 姿态

本文提出了一个基于神经网络视图合成和匹配的学习框架，通过生成的伪标签来学习众多未标注图像中的物体 3D 姿态估计，同时结合 EM 算法的方式，逐步提高特征提取器在不同 3D 视角下的不变性，并通过在 PASCAL3D+ 和 KITTI 数据集上进行的实验证明，该方法在少样本学习下，尤其是掩盖度极高的情况下，比其他基线方法表现更好，且具有出色的鲁棒性。

Oct, 2021

多视频跨样本摘要中的多样性感知

本文提出了一种无监督的视频多维摘要的方法，使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性，提出了一个能够全面描述整个视频集合的多角度摘要，并且在新的 Tour20 数据集和其他多视图数据集上表现优异，并超越了目前最先进的方法。

Jun, 2017

用于自监督学习的多模聚类网络：来自无标签视频

本文提出了一个自监督训练框架，通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性，进而学习一个共同的多模态嵌入空间，并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.

Apr, 2021