视频领域广义化的时空感知多样化

Oct, 2023

视频领域广义化的时空感知多样化

Diversifying Spatial-Temporal Perception for Video Domain Generalization

Kun-Yu Lin, Jia-Run Du, Yipeng Gao, Jiaming Zhou, Wei-Shi Zheng

TL;DR通过从源领域训练，视频领域泛化旨在为未见过的目标领域学习具有普适性的视频分类模型。克服视频领域泛化的一个关键挑战是在识别目标视频时，抵制对来自源领域的特定于领域的线索的过度依赖。为此，我们提出了一种名为 “时空多样化网络（STDN）” 的新模型，该模型旨在感知视频中多样化的时空线索，以发现除特定于领域的线索之外的潜在的领域不变线索。首先，我们的 STDN 提出通过空间分组在单个帧中发现各种类型的空间线索。然后，我们的 STDN 提出通过空间 - 时间关系建模在多个空间 - 时间尺度上显式地建模视频内容之间的空间 - 时间依赖关系。对三个不同类型的基准测试进行的大量实验证明了我们方法的有效性和通用性。

Abstract

video domain generalization aims to learn generalizable video classification models for unseen target domains by training in a source domain. A critical challenge of video domain generalization is to defend again

video domain generalization spatial-temporal cues domain-specific cues spatial-temporal diversification network spatial-temporal relation modeling

发现论文，激发创造

VideoDG: 广义化视频中的时间关系以迎接新领域

本文介绍了一种叫做 VideoDG 的框架，提供了两个技术贡献：一种新颖的深度架构 (Adversarial Pyramid Network) 和一个新的强健性方法 (adversarial data augmentation)，能够通过掌握不同时间尺度的局部关系特征和全局关系特征来解决视频领域通用性问题，并通过提高增强数据的多样性和质量来实现数据域之间的桥梁。在三个视频域通用基准测试上，VideoDG 框架一直表现出比以前的视频分类模型和现有的域通用方法更好的性能。

Dec, 2019

通过时间一致性正则化实现域自适应视频分割

本文提出 DA-VSN 用于视频语义分割，该模型通过领域自适应实现了对不同领域视频间的域差距问题解决，并使用一种基于时序一致性的规则（TCR）来提高模型性能。

Jul, 2021

基于漂移感知动态神经网络的时域泛化

提出了一种名为 DRAIN 的方法来解决时域领域通用问题，通过 Bayesian 方法建立动态图结构神经网络，在考虑模型参数和数据分布在不同时间点的动态漂移的同时，提供了理论保证，具有较高的有效性和效率。

May, 2022

DA-STC: 基于时空一致性的领域自适应视频语义分割

通过引入双向多级时空融合模块和类别感知的时空特征对齐模块，提出了一种新颖的 DA-STC 方法来解决视频语义分割任务中的领域自适应问题，并在多个具有挑战性的基准测试上取得了最先进的 mIOUs。

Nov, 2023

领域泛化的注意力多样化

提出了一种基于 Attention Diversification 的新框架，以提高卷积神经网络在不同领域中的表现，并在多个基准测试中取得了最先进的表现。

Oct, 2022

对比和混合：利用背景混合的时间对比视频域自适应

本文介绍了 Contrast and Mix（CoMix）的新对比学习框架，旨在为无监督的视频领域适应学习具有判别不变性的特征表示。与现有方法依靠对抗学习进行特征对齐不同，我们利用时间对比学习通过最大化未标记视频在两个不同速度下的编码表示的相似性以及最小化不同速度下播放的不同视频的相似性来弥合领域差距，还利用背景混合提出了一种用于时间对比性损失的新型扩展，从而允许每个锚点附加附加正物，增加视频领域适应的语义分享。此外，我们还使用目标伪标签集成了有监督的对比性学习目标，以增强视频领域适应的潜在空间的可区分性。在几个基准数据集上进行的广泛实验验证了我们所提出的方法的优越性。

Oct, 2021

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频 - 语言模型：去耦合的空间 - 时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。

Oct, 2022

学习广义时空深度特征表示用于无参考视频质量评估

该研究提出了一种无参考视频质量评估方法，通过学习空间 - 时间域内的有效特征表示，结合高斯分布约束和金字塔时间聚合模块等方法，达到跨内容、分辨率和帧率的高泛化能力。实验表明，该方法在跨数据集设置方面优于现有方法，在内部数据集配置方面的性能相当，展示了该方法的高泛化能力。

Dec, 2020

基于多样性正则化的时空关注力视频人物再识别

提出了一种新的时空注意力模型，可以自动发现多样化的特征，并使用空间和时间的注意力组合提取有用的信息，从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示，通过三个数据集的评估发现算法优于现有方法。

Mar, 2018

面部反欺诈的测试时间域泛化

测试时间域泛化框架通过引入测试数据来提升模型的适用性，该方法包括测试时间风格投影和多元风格变换模拟，有效地将未知数据投影到已知域空间，并在广泛使用的跨域 FAS 基准测试中展示出最先进的性能和有效性。

Mar, 2024