关键词video understanding tasks
搜索结果 - 8
- Vript: 一部视频胜过千言万语
通过使用 Vript 数据集,我们提出了 Vriptor 模型,它是一个功能强大的视频字幕生成模型,能生成密集详细的长视频字幕;此外,我们还介绍了 Vript-Hard,一个包含三个更具挑战性视频理解任务的基准测试集。
- 视频理解基础模型综述
此研究简化了近 200 种视频基础模型,对 14 个不同的视频任务进行了综合概述,并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现,图像为基础的模型在大多数视频理解任务上持续表现优异,而利用多种模式的通用基础模型在视频任务上表 - VideoPrism:一种用于视频理解的基础视觉编码器
介绍了一种名为 VideoPrism 的通用视频编码器,利用单个冻结模型解决各种视频理解任务。通过在异构语料库上预训练 VideoPrism,其中包含 3600 万个高质量的视频字幕对和 5.82 亿个带有噪声的平行文本视频剪辑,通过全局 - Shot2Story20K:多割视频全面理解的新基准测试
通过一个多镜头视频理解基准(Shot2Story20K)的详细镜头级标题和全面视频摘要,提供了一种更好的视频语义理解方法,包括可视化信号和人类叙述的标题,摘要,检索以及摘要生成,这将显著提升现有视频理解任务的性能,并促进了视频理解中对详细摘 - ICCV语言作为媒介:通过仅文本进行多模态视频分类
通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。 - Clover: 一种统一的视频语言对齐和融合模型
本文提出了 Clover 方法,通过一种新颖的三模式对齐预训练任务,提高了跨模式特征对齐和融合,同时通过从语义掩蔽样本学习和新的成对排名损失增强三模式对齐。Clover 在多个下游任务中取得了新的最先进水平,包括零 - shot 和微调设置 - CVPR长时间视频的时间对齐网络
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。
- ECCV促使视觉 - 语言模型实现高效视频理解
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型,并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别