Apr, 2024

TAVGBench:文本转音频 - 视频生成性能基准测试

TL;DR提出了一个用于生成文字描述音频视频的基准测试集(TAVGBench),包含超过 1.7 百万个剪辑,总时长达到 11.8 千小时。通过自动注释流程,确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数(AVHScore),用于定量衡量生成音频和视频之间的对齐程度。此外,还提出了名为 TAVDiffusion 的 TAVG 基线模型,使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估,展示了我们所提出模型在传统指标和我们提出的指标下的有效性。