CVPR 2022 LOVEU AQTC 挑战赛技术报告

Jun, 2022

Technical Report for CVPR 2022 LOVEU AQTC Challenge

Hyeonyu Kim, Jongeun Kim, Jeonghun Kang, Sanguk Park, Dongchan Park...

TL;DR本文介绍了第二个获胜的AQTC模型，该模型通过提出一种新的上下文地面模块注意力机制来解决视频中多步答案、多模态和各种不同和变化的按钮表示等方面的困难，并对不同步骤网络和视频特征进行了消融研究和按钮数量分析，其在LOVEU竞赛轨道3中取得了总体第二名的成绩，并在四个评估指标中的两个指标中获得了第一名。

Abstract

This technical report presents the 2nd winning model for aqtc, a task newly introduced in cvpr 2022 LOng-form VidEo Understanding (LOVEU) challenges. This challenge faces difficulties with →

发现论文，激发创造

NTIRE 2020 视频质量映射挑战：方法与结果

本文回顾了NTIRE 2020挑战赛在视频质量映射方面的研究成果，该挑战赛分为有监督和弱监督两个轨道，对两个基准数据集进行源视频领域到目标视频领域的质量映射，其中track 1要求算法以有监督的方式从更压缩的视频向更少压缩的视频学习映射，track 2要求算法在弱对准的视频对上学习如何在一个设备质量变化明显的情况下将质量映射到另一个设备上，7组团队参加了track 1，展示了有效的解决方案，而对于track 2，评估了一些现有的方法，展示出弱监督下视频质量映射方面的有希望的解决方案。

May, 2020

NExT-QA：问答到解释时间动作的下一阶段

介绍了NExT-QA，它是一个具有严谨设计的视频问答基准，旨在将视频理解从描述转化为解释时间动作；通过分析基线和现有的视频问答技术，发现表现最好的方法擅长浅层场景描述，但在因果和时间动作推理方面较弱。通过详细结果和启发式观察，希望NExT-QA能引导下一代视频问答研究超越表面的场景描述，实现对视频更深入的理解。

May, 2021

通过视觉概念进行任务感知的集成学习和迁移学习，赢得ICCV'2021 VALUE挑战

本技术报告介绍了我们在VALUE挑战赛中的优胜策略: 单一模型优化，使用视觉概念的迁移学习以及任务感知的集成。根据我们的方法，我们在比赛的VALUE和QA阶段中排名第一。

Oct, 2021

VindLU：一种实现视频与语言预训练的有效方法

该研究论文分析了现代视频和语言（VidL）模型设计的最重要因素，其中包括时空建模、多模态融合、预训练数据选择和细调等，发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要，提出了一种名为VindLU的有效VidL预训练新模型，达到了与现有模型可比甚至更好的性能表现，在多个任务上的性能指标均表现优异。

Dec, 2022

CVPR'2023 AQTC 挑战赛第一名解决方案：基于功能交互为中心的时空视觉语言对齐方法

本研究提出了结合预训练的视觉-语言和视频-语言模型的方法，以及新颖的手-物-交互聚合模块，用于解决 AQTC 中视频信号与语言信号的时空对齐，且取得了 CVPR’2023 AQTC Challenge 第一名的高分表现。

Jun, 2023

CVPR'2023 AQTC挑战赛解决方案：多步推理视频对齐

本研究介绍一种通过学习指导性视频，为用户提供操作设备的逐步指导的场景，并提出了一种解决方案来提高多步推理的视频对齐，通过实验展示了其方法的有效性和优越性，并获得了CVPR'2023 AQTC challenge第二名。

Jun, 2023

NTIRE 2023视频增强挑战的质量评估

本文报告了NTIRE 2023视频增强质量评估挑战，该挑战将与CVPR 2023的新趋势图像恢复和增强研讨会一同举行。该挑战旨在解决视频处理领域中的一个主要问题，即增强视频的视频质量评估（VQA）。该挑战使用了感知视频增强（VDPVE）数据集，其中包含1211个增强视频，其中包括600个颜色、亮度和对比度增强的视频，310个去模糊的视频和301个去抖动的视频。挑战共有167个注册参与者，其中61个参与团队在开发阶段提交了3168份预测结果，37个参与团队在最终测试阶段提交了176份预测结果，最终有19个参与团队提交了模型和详细方法说明。一些方法取得了比基准方法更好的结果，获胜方法表现出卓越的预测性能。

Jul, 2023

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

2023年感知测试：首次挑战与成果总结

在该报告中，我们总结了感知测试挑战的任务描述、指标、基准和结果。

Dec, 2023

QTG-VQA：问题类型引导的视频问答系统架构

本研究针对视频问答系统中不同问题类型对性能的影响进行探讨，凸显了现有研究中对问题类型探索不足的问题。提出QTG-VQA架构，通过问题类型引导的注意机制和自适应学习手段，特别设计了针对时间型问题的掩蔽帧建模技术，以增强模型对时间信息的理解和高效学习。实验验证了该方法的有效性，为VideoQA领域提供了新的评估标准和改进方向。

Sep, 2024