基于字幕基础模型的少样本动作识别

Oct, 2023

基于字幕基础模型的少样本动作识别

Few-shot Action Recognition with Captioning Foundation Models

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yingya Zhang, Changxin Gao...

TL;DR通过 CapFSAR 框架，我们利用预训练的多模态基础模型的知识，从合成描述中提取视觉特征和相关文本嵌入，并设计了基于 Transformer 的视觉文本聚合模块，以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中，我们的 CapFSAR 方法表现优于现有方法，并达到了最先进的性能。

Abstract

Transferring vision-language knowledge from pretrained multimodal foundation models to various downstream tasks is a promising direction. However, most current few-shot action recognition methods are still limited to a single visual modality input due to the high cost of annotating add

vision-language knowledge transfer few-shot action recognition multimodal models cross-modal spatio-temporal information capfsar

发现论文，激发创造

面向少样本动作识别的语义感知视频表示

我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Nov, 2023

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

视频基于少样本行为识别模型的跨领域能力理解

本研究在跨领域少样本动作识别问题中，通过系统性评估已有的单领域、基于迁移的和跨领域方法，发现领域差异与性能之间存在相关性，揭示了一些对 CD-FSAR 方法有效的模型方面，以及需要进一步发展的方面，希望这些洞见能够激发和指导未来在这些方向上的研究工作。

Jun, 2024

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023

CapS-Adapter：基于标题的零射界多模适配器分类

CapS-Adapter 是一种创新方法，通过利用图像和字幕特征构建接近目标分布的支持集，超越现有的最先进技术，实现了在无需训练的情况下的显着零样本分类改进。

May, 2024

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

CLIP 多模态适应用于少样本动作识别

本文提出了一种名为 MA-CLIP 的新方法，旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别，从而解决传统方法中的参数调优和时间建模的问题。

Aug, 2023

多模态基础模型的小样本自适应：综述

多模态模型的少样本适应方法在医学成像等领域仍有待提高，研究者提出了基于提示、适配器和外部知识的三种技术方法，本论文对这些方法进行了综述及对比，并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。

Jan, 2024

随心所欲的视觉描述：由少量风格化句子引导的图像和视频描述

FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架，通过训练样本生成相关风格的标题描述，其在自动评估中的结果优于现有方法，并且在处理多种风格方面具有能力。

Jul, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020