V3C - 研究性视频收藏
本文介绍了一种基于 Versatile Video Coding 的视频编码方案,用于物体检测,通过减小图像尺寸和对比度的方式实现了更好的编码性能和物体检测精度。
May, 2023
该研究介绍了雅虎 Flickr 创意共享千万数据集 (YFCC100M),其包含约 1 亿个多媒体对象,其中约 99.2 万个为照片,0.8 万个为视频,所有对象均带有创意共享许可证。该数据集提供了详细的元数据信息和从 2004 年到 2014 年初的照片和视频的共享情况,对于科学、研究、工程和开发等领域具有重要意义。
Mar, 2015
本研究提出了一种名为 NN-VVC 的混合编解码器,结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC),在图像和视频编码领域为机器实现高性能。实验证明,该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知,这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。
Jan, 2024
通过自动数据集创建方法,我们提出了一个可扩展的 Composed Image Retrieval(CoIR)任务,使用由视频标题对生成的三元组,扩展任务范围到 Composed Video Retrieval(CoVR)。通过在庞大的数据库中挖掘具有相似标题的配对视频,并利用大型语言模型生成相应的修改文本,我们构建了 WebVid-CoVR 数据集,其中包含 1.6 百万个三元组。实验证明,在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR,提高了 CIRR 和 FashionIQ 基准测试中的最新性能。
Aug, 2023
C3 是一种神经压缩方法,通过对每个图像或视频进行过度拟合从而获得强大的率失真性能,其解码复杂度与其他具有相似率失真性能的神经模型相比可降低一个数量级。C3 在 COOL-CHIC 的基础上进行改进,并且还开发了将 C3 应用于视频的新方法。在 CLIC2020 图像基准测试中,我们将 C3 解码的每个像素的 MAC 数减少到不足 3k,与 H.266 编解码器的 VDH 性能相当。在 UVG 视频基准测试中,我们将 C3 解码的每个像素的 MAC 数减少到不足 5k,与 Video Compression Transformer 的 VDH 性能相当。
Dec, 2023
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方向。
Jan, 2020
本文提出了一种新框架来解决 Class-Incremental 视频分类(CIVC)任务,它可以不断更新新类别,同时保持旧视频的知识,并利用视频的一些特性来更好地减轻遗忘的挑战。 在 Something-Something V2 和 Kinetics 数据集上进行评估,结果显示本文的方法显着优于之前的最先进的类别增量学习方法。
Jun, 2021
该研究介绍了一个新的视频数据库 BVI-DVC,用于训练以 CNN 为基础的视频压缩系统;实验结果表明,使用该数据库能够产生显著的编码增益,进而产生更好的视频压缩效果。
Mar, 2020
介绍了 TREC 视频检索评估 (TRECVID) 的目标、历史、任务、数据集、评价框架和指标,以及 2022 年 Ad-hoc 视频搜索、视频文本字幕生成、灾难场景描述与索引、长视频中的活动、深度视频理解和电影摘要任务的高级结果概述。
Jun, 2023