文本到视频质量评估的主观对齐数据集和度量

ECCVMar, 2024

文本到视频质量评估的主观对齐数据集和度量

Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment

Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu...

TL;DR利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征，并利用大型语言模型的能力给出预测评分，该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型，能够给出主观对齐的预测评价。

Abstract

With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives. Among them, Text-to-Video (T2V) generation has received widespread attention. Though many T2V models have been released for generating high pe

generative models artificial intelligence-generated contents text-to-video generation text-to-video quality assessment transformer-based model

发现论文，激发创造

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

FETV：开放领域文本视频生成的细粒度评估基准

我们提出了 FETV，一个用于细粒度评估文本到视频生成的基准，它基于三个正交方面对提示进行分类，并且是与时间相关的，通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估，发现现有的自动评估指标与人工评估的相关性较差，并提出了两个新的自动评估指标与人工评估相关性更高。

Nov, 2023

AGIQA-3K: 人工智能生成图像质量评估的开放数据库

该研究旨在解决基于文本生成图像的模型中存在的主观质量差异问题并提出了 StairReward 模型评估主观文本图像对齐的一致性，并以此建立了 AGIQA-3K 数据库。

Jun, 2023

AIGIQA-20K：AI 生成图像质量评估的大规模数据库

通过考虑 15 个流行生成模型和动态超参数，本研究组织了一项挑战，全面评估人类主观评分、感知质量和文本图像对齐等方面，以创建迄今最大的细粒度 AIGI 主观质量数据库 AIGIQA-20K，并通过基准实验评估 16 个主流 AIGI 质量模型与人类感知之间的相应关系。预期该数据库将推动 AIGC 在视觉领域的进展。

Apr, 2024

AIS 2024 用户生成内容视频质量评估挑战：方法与结果

该论文综述了 AIS 2024 视频质量评估（VQA）挑战，着重于用户生成内容（UGC）。该挑战旨在收集能够估计 UGC 视频感知质量的基于深度学习的方法。挑战中的用户生成视频来自 YouTube UGC 数据集，包括多样的内容（体育、游戏、歌词、动漫等）、质量和分辨率。提出的方法必须在 1 秒内处理 30 个 FHD 帧。在挑战中，共有 102 位参与者注册，其中 15 人提交了代码和模型。本文回顾了前 5 个提交的性能，并提供了对用户生成内容高效视频质量评估的各种深度模型的调查。

Apr, 2024

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议，包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块，实验证明该协议不仅确保了高质量的注释，还可以将评估成本降低近 50%。

Jun, 2024

OpenVid-1M：一个用于文本到视频生成的大规模高质量数据集

T2V 生成在最近受到了很大的关注，然而仍面临两个重要的挑战：缺乏精确的开源高质量数据集，以及未充分利用文本信息。为了解决这些问题，我们介绍了 OpenVid-1M，一个精确的高质量数据集，以及一种能够从视觉标记和文本标记中提取结构信息和语义信息的新型多模态视频扩散变换器（MVDiT）的提议。广泛的实验和消融研究验证了 OpenVid-1M 优于以前数据集的优越性和我们的 MVDiT 的有效性。

Jul, 2024