F3 剪枝：一种无需训练并具有广泛适用性的剪枝策略，用于更快速和更精细的文本到视频合成

Dec, 2023

F3 剪枝：一种无需训练并具有广泛适用性的剪枝策略，用于更快速和更精细的文本到视频合成

F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis

Sitong Su, Jianzhi Liu, Lianli Gao, Jingkuan Song

TL;DR近期的文本到视频综合技术在大规模数据集上利用 Transformer 或扩散模型取得了突破，但是推断这些大规模模型代价高昂。为了解决这一问题，研究探索了两个主流的文本到视频模型（基于 Transformer 和扩散模型）的推断过程，并发现了它们在时间注意力模块中的冗余性。因此，提出了一种无需重新训练的普遍修剪策略，称为 F3-Pruning，用于修剪冗余的时间注意力权重。通过在三个数据集上对经典的基于 Transformer 的模型 CogVideo 和典型的扩散模型 Tune-A-Video 进行广泛实验，验证了 F3-Pruning 在推断加速、质量保证和广泛适用性方面的有效性。

Abstract

Recently Text-to-Video (T2V) synthesis has undergone a breakthrough by training transformers or diffusion models on large-scale datasets. Nevertheless, inferring such large models incurs huge costs.Previous infer

text-to-video synthesis transformers diffusion models pruning strategy inference acceleration

发现论文，激发创造

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022

面向多模态生成的生成人工智能系统影响

对新兴的多模态文本到图像和文本到视频工作负载进行深入的系统性能表征是设计高效和可部署系统的关键第一步。

Dec, 2023

剥离洋葱：分层减少数据冗余以提高 Vision Transformer 训练效率

本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT，探索了数据冗余的减少，并证明了该框架不仅可以加速各种 ViT 架构的训练，还可以提高准确性。

Nov, 2022

搜索先验使文本到视频的合成更好

本文使用搜索为基础的生成流程，将传统的文本到视频生成过程重构，并利用先前的视频作为动作先验数据库，以此增强生成视频动作的真实感。

Jun, 2024

快速 Transformer 的块剪枝

本文提出了一种针对小型、快速模型的块删剪方法，可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件，包括注意头，比如，实验结果在速度和大小上与精简模型相比相当有竞争力，SQuAD v1 上的 2.4 倍速度、74％更小的 BERT，F1 减少 1%。

Sep, 2021

通过掩码微调来弥合标记剪枝和完全预训练之间的差距

采用蒙版微调为动态视觉转换器的静态预训练基础模型提供更好的初始化，以提高准确性并增强其对遮挡的鲁棒性和对信息丢失的抵抗能力。

Oct, 2023

FIFO-Diffusion: 从文本生成无需训练的无限视频

我们提出了一种基于预训练扩散模型的新推理技术，用于文本条件视频生成。我们的方法名为 FIFO-Diffusion，能够概念性地生成无需训练的无限长视频。通过迭代地进行对角去噪处理，我们同时处理一个队列中噪声逐渐增加的一系列连续帧；我们的方法在队列头部出队完全去噪的帧，并在队列尾部入队一个新的随机噪声帧。但是，对角去噪处理是一把双刃剑，因为靠近尾部的帧可以通过向前引用来利用更干净的帧，但这种策略会引起训练和推理之间的差异。因此，我们引入了潜在分区来减小训练和推理之间的差距，并引入了前瞻去噪来利用向前引用的好处。我们已经在现有的文本到视频生成基准上展示了该方法的有希望的结果和有效性。

May, 2024