CVPR 2022 LOVEU AQTC 挑战赛技术报告
本文回顾了NTIRE 2020挑战赛在视频质量映射方面的研究成果,该挑战赛分为有监督和弱监督两个轨道,对两个基准数据集进行源视频领域到目标视频领域的质量映射,其中track 1要求算法以有监督的方式从更压缩的视频向更少压缩的视频学习映射,track 2要求算法在弱对准的视频对上学习如何在一个设备质量变化明显的情况下将质量映射到另一个设备上,7组团队参加了track 1,展示了有效的解决方案,而对于track 2,评估了一些现有的方法,展示出弱监督下视频质量映射方面的有希望的解决方案。
May, 2020
介绍了NExT-QA,它是一个具有严谨设计的视频问答基准,旨在将视频理解从描述转化为解释时间动作;通过分析基线和现有的视频问答技术,发现表现最好的方法擅长浅层场景描述,但在因果和时间动作推理方面较弱。通过详细结果和启发式观察,希望NExT-QA能引导下一代视频问答研究超越表面的场景描述,实现对视频更深入的理解。
May, 2021
本技术报告介绍了我们在VALUE挑战赛中的优胜策略: 单一模型优化,使用视觉概念的迁移学习以及任务感知的集成。根据我们的方法,我们在比赛的VALUE和QA阶段中排名第一。
Oct, 2021
该研究论文分析了现代视频和语言(VidL)模型设计的最重要因素,其中包括时空建模、多模态融合、预训练数据选择和细调等,发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要,提出了一种名为VindLU的有效VidL预训练新模型,达到了与现有模型可比甚至更好的性能表现,在多个任务上的性能指标均表现优异。
Dec, 2022
本研究提出了结合预训练的视觉-语言和视频-语言模型的方法,以及新颖的手-物-交互聚合模块,用于解决 AQTC 中视频信号与语言信号的时空对齐,且取得了 CVPR’2023 AQTC Challenge 第一名的高分表现。
Jun, 2023
本研究介绍一种通过学习指导性视频,为用户提供操作设备的逐步指导的场景,并提出了一种解决方案来提高多步推理的视频对齐,通过实验展示了其方法的有效性和优越性,并获得了CVPR'2023 AQTC challenge第二名。
Jun, 2023
本文报告了NTIRE 2023视频增强质量评估挑战,该挑战将与CVPR 2023的新趋势图像恢复和增强研讨会一同举行。该挑战旨在解决视频处理领域中的一个主要问题,即增强视频的视频质量评估(VQA)。该挑战使用了感知视频增强(VDPVE)数据集,其中包含1211个增强视频,其中包括600个颜色、亮度和对比度增强的视频,310个去模糊的视频和301个去抖动的视频。挑战共有167个注册参与者,其中61个参与团队在开发阶段提交了3168份预测结果,37个参与团队在最终测试阶段提交了176份预测结果,最终有19个参与团队提交了模型和详细方法说明。一些方法取得了比基准方法更好的结果,获胜方法表现出卓越的预测性能。
Jul, 2023
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
本研究针对视频问答系统中不同问题类型对性能的影响进行探讨,凸显了现有研究中对问题类型探索不足的问题。提出QTG-VQA架构,通过问题类型引导的注意机制和自适应学习手段,特别设计了针对时间型问题的掩蔽帧建模技术,以增强模型对时间信息的理解和高效学习。实验验证了该方法的有效性,为VideoQA领域提供了新的评估标准和改进方向。
Sep, 2024