VidProM:用于文本到视频扩散模型的百万级实时提示展示数据集
通过 DiffusionDB 这个大规模的文本引导数据集,我们可以更好地理解中自然语言提示与生成模型之间的相互作用,检测深度伪造,并设计帮助用户更轻松使用这些模型的人工智能交互工具。
Oct, 2022
T2V 生成在最近受到了很大的关注,然而仍面临两个重要的挑战:缺乏精确的开源高质量数据集,以及未充分利用文本信息。为了解决这些问题,我们介绍了 OpenVid-1M,一个精确的高质量数据集,以及一种能够从视觉标记和文本标记中提取结构信息和语义信息的新型多模态视频扩散变换器(MVDiT)的提议。广泛的实验和消融研究验证了 OpenVid-1M 优于以前数据集的优越性和我们的 MVDiT 的有效性。
Jul, 2024
本文介绍了 InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频 - 文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集,并使用大型语言模型,展示了其在学习大规模视频 - 语言编码中的效力。
Jul, 2023
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到 3D 的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
为了提高生成文本模型的效果,本研究创建了一个衍生且合成自真实提示的、与 Microsoft-COCO 和 Flickr 等流行图像 - 文本数据集索引的大规模数据集 MTTN,其包括超过 240 万个句子,分成 5 个阶段,共计超过 1200 万个对,并且具有超过 300,000 个独有词汇,目的是反映全球互联网语言的使用方式,从而使更强大的生成文本模型更能够利用。
Jan, 2023
本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架,在零样本设置中引入了两个关键改进,提高了视觉 - 语言模型的性能,并在视频理解方面展示了一致的改进。
Oct, 2023
通过 Promptus,用稳定扩散将视频帧转换成一系列的 “prompts” 传递,可以进一步降低比特率并保持质量,其渐变下降的提示匹配框架、基于低秩分解的比特率控制算法以及基于时间平滑的提示插值算法可实现自适应比特率、帧压缩和实时视频生成,并提高感知质量,减少失真帧比例,开创了超越香农极限的高效视频通信新范式。
May, 2024
此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器 (SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的 T2I 模型相媲美。
May, 2023
通过构建一个大规模指示遵循数据集,以及提出高频率引导采样方法和辅助提示适配器,即 PromptFix,使扩散模型在各种图像处理任务中优于以往方法,同时在盲恢复和组合任务中展现出卓越的零样本能力。
May, 2024