video-text tasks | BriefGPT

关键词video-text tasks

搜索结果 - 4

InternVideo2：面向多模态视频理解的视频基础模型的扩展
我们介绍 InternVideo2，这是一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督
PDF3 months ago
COSA: 连接样本预训练的视觉 - 语言基础模型
本研究提出了 COSA，一种 COncatenated SAmple 预训练视觉语言基础模型，它通过仅使用图像 - 文本语料库，联合建模视觉内容和事件级时间线索，使现有的图像 - 文本语料库转化为一种伪长篇视频 - 段落语料库，并在包括检索
PDFa year ago
X$^2$-VLM：图像和语言任务的多功能预训练模型
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模
PDF2 years ago
视觉 - 语言预训练：基础、最新进展和未来趋势
本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。
PDF2 years ago