TALC: 多场景文本到视频生成的时间对齐字幕

May, 2024

TALC: 多场景文本到视频生成的时间对齐字幕

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation

Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover...

TL;DR我们介绍一种称为 Time-Aligned Captions（TALC）框架的方法，通过增强文本条件机制，使得文本到视频（T2V）模型能够生成符合多场景文本描述的多场景视频，并且在视觉上具有一致性。通过使用 TALC 框架对预训练的 T2V 模型进行微调，我们展示了与基线方法相比，TALC 微调模型在整体评分上优于基线方法 15.5 个百分点，综合考虑了视觉一致性和文本符合度。

Abstract

Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a partic

diffusion-based generative modeling text-to-video models multi-scene videos time-aligned captions (talc) framework finetuning

发现论文，激发创造

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

大型语言模型是零样本文本到视频生成的帧级导演

本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V，该模型可以通过用户提供的单个抽象提示生成一帧帧的视频，并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性，从而解决了零样本视频生成的挑战。

May, 2023

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

多层上下文数据生成的纯文本图像标注

本文提出了一种新的多情景数据生成框架用于提高文本图像注释的训练数据，该框架使用扩散模型生成复杂和简单图像，并在 MSCOCO、Flickr30k 和 SS1M 等数据集上实现了最先进的表现。

May, 2023

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

VideoDirectorGPT: 基于 LLM 引导的一致多场景视频生成

我们提出了 VideoDirectorGPT，这是一个使用 LLMs 知识的生成一致多场景视频的新框架，并通过实验展示了其在布局和运动控制方面的显著改进，同时在单场景和多场景视频生成中实现了场景的视觉一致性。

Sep, 2023

TempCLR：具有对比学习的时间对齐表示法

该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR，通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离，它可以探索时间动态，并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。

Dec, 2022

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024