Oct, 2023

视频领域广义化的时空感知多样化

TL;DR通过从源领域训练,视频领域泛化旨在为未见过的目标领域学习具有普适性的视频分类模型。克服视频领域泛化的一个关键挑战是在识别目标视频时,抵制对来自源领域的特定于领域的线索的过度依赖。为此,我们提出了一种名为 “时空多样化网络(STDN)” 的新模型,该模型旨在感知视频中多样化的时空线索,以发现除特定于领域的线索之外的潜在的领域不变线索。首先,我们的 STDN 提出通过空间分组在单个帧中发现各种类型的空间线索。然后,我们的 STDN 提出通过空间 - 时间关系建模在多个空间 - 时间尺度上显式地建模视频内容之间的空间 - 时间依赖关系。对三个不同类型的基准测试进行的大量实验证明了我们方法的有效性和通用性。