在计算机视觉中,我们提出了一种用于自动评估野外采集视频质量的混合数据集训练策略,并探索了人类视觉系统的内容依赖性和时间记忆效应。实验结果表明,该模型在相对质量、感知质量和主观质量预测方面具有卓越性能,与现有最先进的模型相比,提高了 VQA 性能的成功率。
Nov, 2020
本文针对 VideoQA 展开研究,提出了一个明确的分类学和全面的分析方法,并指出未来探索的几个有前途的方向。
Mar, 2022
本文讨论了在各种因素的干扰下,如何对自然视频的视频质量进行评估,构建了 Maxwell 数据库,并提出了 MaxVQA,一种基于 Vision-Language 模型的视频质量评估方法。
May, 2023
本文提出 TVQA,一个基于 6 个流行电视节目的大规模视频问答数据集,共计包含 152,545 对 QA 对,分布在 21,793 个片段中,共涵盖了 460 小时的视频。该数据集中的问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。
Sep, 2018
本文介绍一种名为 ActivityNet-QA 的全新、已标注的大规模 VideoQA 数据集,以此作为基础,探讨了在长视频情境下提高 VideoQA 性能的各种视频表示方法和已有的 VideoQA 基准测试的比较方法。
Jun, 2019
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
该研究介绍了一种称为 ISVQA 的任务,即将自然语言问题和一组图片作为输入,并旨在根据图像的内容回答问题。此外,该研究还引入了两个在室内和室外场景中的 ISVQA 数据集,并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。
Aug, 2020
提出了一种新的基于教学视频的问题回答任务,并介绍了一个包含约 6000 个三元组的数据集(视频,问题,回答跨度),并使用几个基准算法对其进行了实验,从而得出该任务的挑战性并呼吁探索新算法。
Dec, 2019
本文提出了一种基于深度神经网络,利用人类视觉系统的内容依赖和时间记忆效应来进行无参考视频质量评估的方法,并在三个公开数据库上进行实验证明该方法相较于五种最先进的方法有着 12.39%,15.71%,15.45%和 18.09%不等的总体性能提高。
Aug, 2019
本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。
Dec, 2020