TPA-Net：生成基于物理动画的文本数据集

Nov, 2022

TPA-Net：生成基于物理动画的文本数据集

TPA-Net: Generate A Dataset for Text to Physics-based Animation

Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang...

TL;DR本文介绍了一种基于自主数据生成技术以及提供高分辨率的 3D 物理模拟和物质和其描述的文本描述的数据集，旨在推动基于文本的视频 / 模拟实现高水平的物理真实感。

Abstract

Recent breakthroughs in Vision-Language (V&L) joint research have achieved remarkable results in various text-driven tasks. High-quality text-to-video (T2V), a task that has been long considered mission-impossible, was proven feasible with reasonably good results in latest works. Howev

vision-language joint research text-to-video autonomous data generation physical simulations neural radiance fields

发现论文，激发创造

VideoPhy: 视频生成中的物理常识评估

通过创建一个基准测试集 VideoPhy，我们评估了现有的文本到视频生成模型是否能符合真实世界活动的物理常识，结果显示这些模型缺乏生成符合文字提示和物理规律视频的能力，从而揭示了视频生成模型远未准确模拟物理世界的程度。

Jun, 2024

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

搜索先验使文本到视频的合成更好

本文使用搜索为基础的生成流程，将传统的文本到视频生成过程重构，并利用先前的视频作为动作先验数据库，以此增强生成视频动作的真实感。

Jun, 2024

基于文本的 4D 动态场景生成

MAV3D 使用 4D 神经辐射场和 T2V 模型从文本描述中生成 3D 动态场景，无需 3D 或 4D 数据，通过综合的定量和定性实验证明其有效性，并显示比已建立的内部基线更好的性能。

Jan, 2023

Make-A-Video: 无需文本与视频数据的文本到视频生成

该研究提出一种名为 Make-A-Video 的方法，利用文本 - 图像生成的进展，从而实现文本 - 视频的生成，通过对时空模块的研究，提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。

Sep, 2022

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021

文本驱动的人类视频生成

本文提出了 Text2Performer 算法，基于文本描述生成拥有精细动作的逼真人类视频，并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计：将 VQVAE 潜空间表示细分为人物形象和姿势表示，并通过连续 VQ-diffuser 对姿势编码进行采样，得到更好的动作建模。该算法在多项实验中表现出成果丰硕。

Apr, 2023

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

TAAT：从任意文本思考和行动的 Text2Motion

Text2Motion 旨在从文本中生成人体动作。本文重新定义了此问题，以更现实的假设为基础，即文本可以是任意的。通过在 HumanML3D 数据集上扩展动作文本以涵盖更多场景文本，创建了 HumanML3D++ 数据集。在这个挑战性的数据集中，我们提出了一个新颖的两阶段框架来从任意文本中提取动作标签并生成动作。通过不同的应用场景进行广泛实验证明了该方法在现有和提出的数据集上的有效性。结果表明，在这个现实的设置中，Text2Motion 是非常具有挑战性的，为这个实际方向的新研究提供了动力。我们将发布数据集和代码。

Apr, 2024