儿童视频内容的视觉语言模型用于内容管理的潜力

ICMLDec, 2023

儿童视频内容的视觉语言模型用于内容管理的潜力

The Potential of Vision-Language Models for Content Moderation of Children's Videos

Syed Hammad Ahmed, Shengnan Hu, Gita Sukthankar

TL;DR该研究通过评估多种 CLIP 变种模型在儿童动画视频内容管理中的性能，展示了 Vanilla CLIP with Projection Layer 模型在提供更多上下文环境的内容管理提示方面优于以往工作的结果。研究结果表明，在内容管理提示中加入更多上下文对于卡通视频是必要的，因为它们在 CLIP 训练数据中的表示不足。

Abstract

natural language supervision has been shown to be effective for zero-shot learning in many computer vision tasks, such as object detection and activity recognition. However, generating informative prompts can be challenging for more subtle tasks, such as →

natural language supervision zero-shot learning video content moderation children's cartoons context-specific language prompts

发现论文，激发创造

音视融合技术增强儿童视频多模态内容审核

针对面向儿童的视频内容创作数量的增加，需要强大的视频托管平台内容审核方案。我们提出了一种有效的 CLIP 适应方法，利用上下文音频提示来增强内容审核，通过冻结各个模态的背景模块，将音频模态和提示学习融合，对多模态版本的恶意或良性数据集进行了实验。

May, 2024

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

CLIP 对红色圆圈有何了解？用于 VLM 的视觉提示工程

本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法，并发现了 CLIP 的一种新能力，通过简单地在物体周围画一个红圈，即可引导模型的注意力，同时保留全局信息。通过这种简单的方法，在零样本引用表达理解中实现了最先进的效果，并在关键点定位任务中取得了强大的性能。最后，我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。

Apr, 2023

视觉 - 语言模型能从自然视频中识别分心驾驶员的行为

提出了一种基于 CLIP 的驾驶员活动识别方法，该方法可以从自然驾驶图像和视频中识别驾驶员分心行为，并具有零样本迁移和面向任务的微调的特点。

Jun, 2023

探索视觉语言模型的零样本能力以提高凝视跟踪

通过调查视觉语言模型（VLMs）的零样本能力，探索提取各种上下文线索以提高凝视跟踪性能的可能性。

Jun, 2024