多模态少样本时间动作检测
本文介绍了一种基于多模态少样本学习的目标检测方法,使用视觉样本和分类语义信息来检测目标,通过元学习和提示学习相结合,在不需要微调的情况下建立通用少 / 零样本检测模型,同时引入知识蒸馏来解决针对稀有类别缺乏类名称先验知识的问题,通过在多个少样本数据集上的实验来验证该方法的有效性。
Apr, 2022
本研究呈现了 ZEETAD,这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法,通过最小程度地更新冻结的 CLIP 编码器,实现对未见过的动作类别的辨别能力增强,并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。
Nov, 2023
本研究提出了一种新的少样本学习 (temporal action localization) 设置,使用未剪裁的视频来动态适应新类别和每个视频,同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现这一点,从而在两个行动定位基准测试中显著地优于所有现有方法。
Oct, 2021
本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型,通过打破定位和分类之间的依赖关系来消除错误传播,有效解决了序列定位和分类设计中的困难,实验证明我们的模型在标准 ZS-TAD 视频基准上显著优于现有的最先进的推荐方案,在监督式 TAD 上也胜过近期的强竞争对手。该模型的 PyTorch 实现可在链接中获取。
Jul, 2022
近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。
Sep, 2023
通过 CapFSAR 框架,我们利用预训练的多模态基础模型的知识,从合成描述中提取视觉特征和相关文本嵌入,并设计了基于 Transformer 的视觉文本聚合模块,以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,我们的 CapFSAR 方法表现优于现有方法,并达到了最先进的性能。
Oct, 2023
本文提出了一种用于多模态多任务学习的 few-shot 学习框架,采用预训练的视觉和语言模型,并通过任务特定的超网络和对比度微调来适应不同的场景,学习视觉推理、视觉问答和自然语言理解等重要任务。
Feb, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
本文提出了一种名为 TSA-MLT 的端到端方法,在多层次特征上使用多层 Transformer 并使用任务特定的 TSA 进行处理,然后使用 L2 和 Optimal transport 距离度量进行融合,并以交叉熵损失进行训练以获得时间和语义方面的对齐,实验结果表明,在 HMDB51 和 UCF101 数据集上获得了最先进的结果,在 Kinetics 和 something-2-something V2 数据集基准测试上也有竞争力。
Jul, 2023