视频基于少样本行为识别模型的跨领域能力理解
提出了一种新颖的跨领域少样本视频动作识别方法,利用自监督学习和课程学习平衡源领域和目标领域的信息以解决多样性之间的挑战。在几个具有挑战性的基准数据集上评估并展示了该方法优于现有的跨领域少样本学习技术。
Sep, 2023
通过 CapFSAR 框架,我们利用预训练的多模态基础模型的知识,从合成描述中提取视觉特征和相关文本嵌入,并设计了基于 Transformer 的视觉文本聚合模块,以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,我们的 CapFSAR 方法表现优于现有方法,并达到了最先进的性能。
Oct, 2023
我们提出了一种简单而有效的语义感知少样本动作识别模型(SAFSAR),该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类,实现了更好的性能,无需复杂的距离函数和额外的时间建模组件。在这种方案中,SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合,并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明,所提出的 SAFSAR 模型显著提高了最先进的性能。
Nov, 2023
跨域少样本分割中的动态自适应细化方法 (Dynamically Adaptive Refine, DARNet),包括通道统计扰动和自适应细化自匹配技术,以及测试时的自适应方法(Test-Time Adaptation, TTA),在跨域少样本分割任务中显著超越了现有方法的性能。
Dec, 2023
本文提出了跨域 few-shot 学习的 Broader Study of Cross-Domain Few-Shot Learning (BSCD-FSL)基准,并对该基准的广泛实验表明了目前最先进的元学习方法被早期的元学习方法意外地超越,同时发现所有方法的准确性倾向于与数据集的相似性相关,这验证了该基准的价值,可指导未来的研究方向。
Dec, 2019
面对与训练领域不同的图像时,少样本分割性能大幅下降,这限制了其在现实世界的应用。本研究通过在传统的分类预训练骨干网络的特征金字塔中附加小型网络实现测试时任务自适应,避免过拟合到有监督微调中的少量标记样本,同时在不使用测试时的其他图像的限制下,在交叉领域少样本分割中取得了新的最先进性能,证明了在这个任务中重新思考方法的必要性。
Feb, 2024
本文提出一种名为 stabPA 的新方法,通过学习紧凑的原型和跨域对齐表示来同时解决域漂移和少样本学习问题,并在 DomainNet 数据集上实现了优异的结果。
Jul, 2022
本文旨在提出一种基于元学习的有效的实现少样本迁移学习的方法,该方法使用局部视觉线索学习表示,以在具有不同场景和动作配置的公共数据集之间进行行为分类模型的迁移。结果表明,该方法在跨类别和跨数据集转移方面效果优于现有的行为分类方法。
Jul, 2019
通过多模态输入和无标签目标数据解决跨领域少样本学习中视角行为识别的两个关键挑战,即视角视频的领域差异和实际应用的计算成本问题。提出了 MM-CDFSL 方法,通过教师模型的多模态蒸馏和集成遮蔽推理,增强模型对目标域的适应性并提高推理速度。在多个视角数据集上的性能优于现有的跨领域少样本学习方法,同时提高了推理速度。
May, 2024
我们提出了一种新颖的方法,称为域自适应少样本开放集识别(DA-FSOS),并引入了一种基于元学习的架构命名为 DAFOSNET。我们的模型通过在给定完全监督的源域和标签独立的少样本目标域的情况下创建伪开放空间决策边界来学习共享和可区分的嵌入空间,并使用一对具有可调噪声方差的条件对抗网络来增强数据密度。此外,我们提出了一种特定于域的批归一化类原型对齐策略,通过新的度量目标在全局上对齐两个域,同时确保类别辨别性。我们基于 Office-Home、mini-ImageNet/CUB 和 DomainNet 数据集提出了 DA-FSOS 的三个基准,并通过广泛的实验验证了 DAFOSNET 的有效性。
Sep, 2023