TAVGBench：文本转音频 - 视频生成性能基准测试

Apr, 2024

TAVGBench：文本转音频 - 视频生成性能基准测试

TAVGBench: Benchmarking Text to Audible-Video Generation

Yuxin Mao, Xuyang Shen, Jing Zhang, Zhen Qin, Jinxing Zhou...

TL;DR提出了一个用于生成文字描述音频视频的基准测试集（TAVGBench），包含超过 1.7 百万个剪辑，总时长达到 11.8 千小时。通过自动注释流程，确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数（AVHScore），用于定量衡量生成音频和视频之间的对齐程度。此外，还提出了名为 TAVDiffusion 的 TAVG 基线模型，使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估，展示了我们所提出模型在传统指标和我们提出的指标下的有效性。

Abstract

The text to audible-video generation (tavg) task involves generating videos with accompanying audio based on text descriptions. Achieving this requires skillful alignment of both audio and video elements. To supp

text to audible-video generation tavg benchmark annotation pipeline audio-visual harmoni score

发现论文，激发创造

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

细粒度可听视频描述

本文介绍一项新的音频视觉语言建模任务：细粒度可听视频描述（FAVD），旨在为给定的听觉视频提供详细的文本描述，包括每个物体的外观和空间位置，移动物体的动作以及视频中的声音，本文还构建了第一个 fine-grained audible video description benchmark（FAVDBench），并提出了两个新的度量标准。我们使用先前的视频字幕模型加入了一个附加的音频分支的 audio-visual-language transformer 对该任务进行了初步的尝试，并证明了 fine-grained video descriptions 可帮助创建比字幕更复杂的视频。

Mar, 2023

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Aug, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

文本到视频质量评估的主观对齐数据集和度量

利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征，并利用大型语言模型的能力给出预测评分，该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型，能够给出主观对齐的预测评价。

Mar, 2024

AIGCBench：AI 生成的图像到视频内容的综合评估

人工智能生成内容（AIGC）领域迅速发展，本研究介绍了 AIGCBench，一个全面且可扩展的基准测试，旨在评估各种视频生成任务，主要集中在图像到视频（I2V）生成上。

Jan, 2024

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023