video understanding tasks | BriefGPT

关键词video understanding tasks

搜索结果 - 8

Vript: 一部视频胜过千言万语
通过使用 Vript 数据集，我们提出了 Vriptor 模型，它是一个功能强大的视频字幕生成模型，能生成密集详细的长视频字幕；此外，我们还介绍了 Vript-Hard，一个包含三个更具挑战性视频理解任务的基准测试集。
PDF24 days ago
视频理解基础模型综述
此研究简化了近 200 种视频基础模型，对 14 个不同的视频任务进行了综合概述，并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现，图像为基础的模型在大多数视频理解任务上持续表现优异，而利用多种模式的通用基础模型在视频任务上表
PDF2 months ago
VideoPrism：一种用于视频理解的基础视觉编码器
介绍了一种名为 VideoPrism 的通用视频编码器，利用单个冻结模型解决各种视频理解任务。通过在异构语料库上预训练 VideoPrism，其中包含 3600 万个高质量的视频字幕对和 5.82 亿个带有噪声的平行文本视频剪辑，通过全局
PDF4 months ago
Shot2Story20K：多割视频全面理解的新基准测试
通过一个多镜头视频理解基准（Shot2Story20K）的详细镜头级标题和全面视频摘要，提供了一种更好的视频语义理解方法，包括可视化信号和人类叙述的标题，摘要，检索以及摘要生成，这将显著提升现有视频理解任务的性能，并促进了视频理解中对详细摘
PDF7 months ago
ICCV语言作为媒介：通过仅文本进行多模态视频分类
通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。
PDF9 months ago
Clover: 一种统一的视频语言对齐和融合模型
本文提出了 Clover 方法，通过一种新颖的三模式对齐预训练任务，提高了跨模式特征对齐和融合，同时通过从语义掩蔽样本学习和新的成对排名损失增强三模式对齐。Clover 在多个下游任务中取得了新的最先进水平，包括零 - shot 和微调设置
PDF2 years ago
CVPR长时间视频的时间对齐网络
本文提出了一种时间对齐网络，能够对长期视频序列和关联文本句子进行处理，使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频，应用于多个视频理解任务，包括文本 - 视频检索和弱监督视频动作分割等，获得了更好的性能。
PDF2 years ago
ECCV促使视觉 - 语言模型实现高效视频理解
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别
PDF3 years ago