利用描述性视频服务创造大规模视频注释研究的数据源
本文提出了一个新的数据集 “Movie Description Dataset”,其中包括对于 72 部高清电影的超过 54,000 个句子和视频片段的平行语料库,此外,还比较了 DVS 和电影脚本这两种不同类型的电影描述。该数据集可用于基于计算机视觉和计算语言学的视频描述生成算法的性能评估。
Jan, 2015
本文综述了视频描述领域的最新发展,关注于深度学习模型,并对基准数据集和评估指标进行比较和分析,同时指出当前视频描述领域仍然面临着诸多挑战。
Jun, 2018
QuerYD 是一个用于视频检索和事件定位的大规模数据集,其独特之处在于每个视频都提供了两个音轨:原始音频和视觉内容高质量的口述描述,该数据集基于 YouDescribe 项目,其音频和文本注释都是高度详细和与时间对齐的。该数据集可以用于训练和评估视频理解的模型,并公开了数据、代码和模型。
Nov, 2020
本研究提出了一个大规模的视频字幕翻译数据集 BigVideo,用于促进多模态机器翻译的研究;在跨模态编码器中引入了对比学习方法,结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。
May, 2023
通过构建新数据集和发展多词概念库,本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈,实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍,并将在 2016-2023 年(八年)TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%,平均约为 20%。
Apr, 2024
本研究介绍了一种基于深度学习的事件相机语义分割方法,具有比基于灰度图的方法更好的性能,同时提出了一种新的事件相机数据表示方法,并描述了如何利用自动生成的近似语义分割标签对 DDD17 数据集进行训练,从而应对数据集标签不足的问题。
Nov, 2018
本文提出了一个新的数据集,用于从音频注释中生成视频描述。该数据集包含 118,114 个句子和来自 202 部电影的视频剪辑。对比于脚本描述,我们发现 Audio Description 更加直观且准确的描述了电影中所呈现的内容。此外,我们呈现和比较了几个参加 “理解视频和大规模电影描述挑战” 的团队的结果,该挑战在 ICCV 2015 中举行。
May, 2016
我们提出了一个新的任务和人类标注的数据集,用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力,该数据集包含了 4800 个 YouTube 视频剪辑,时长在 20-60 秒之间,涵盖了广泛的主题和兴趣,对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估,并提出了一个基础模型作为 Video-CSR 任务的基准,旨在成为大型语言模型和复杂多模态任务时代的有用评估集。
Oct, 2023
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
Nov, 2023
本文介绍了 DVD 数据集,使用该数据集分析现有方法并提供有趣的见解,探讨视频对话系统的能力与局限性,并为不同类型的空间时间推理注释详细信息,该数据集明确旨在减少模型可能利用的偏见。
Jan, 2021