- 探索使用扩散模型的迭代细化来进行视频定位
DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至 - EMNLPDALE:用于低资源法律自然语言处理的生成式数据增强
DALE 是一个新颖有效的低资源法律 NLP 数据增强框架,通过使用编码 - 解码语言模型,预训练选择性屏蔽的无监督文本去噪目标,结合特定领域语言特性对模板化法律文件进行遮盖,从而生成连贯多样的合成增强,用于低资源法律 NLP 任务。DAL - 核弹性自编码器用于分子设计
基于变换器结构的核弹性自编码器(KAE)是一个自我监督的生成模型,通过修改的最大均值偏差和加权重构函数,解决了同时实现有效生成和准确重构的长期挑战,并在分子设计中取得了显著的多样性和近乎完美的重构,超越了之前的分子生成模型。KAE 实现了条 - 可解释的信息分解扩散
通过使用去噪扩散模型,我们可以条件生成和密度建模复杂关系,如图像和文本,并通过信息分解揭示学到的细粒度关系,进而提出了许多应用,包括无监督定位图像中的目标和选择性编辑图像时的影响测量。
- ConditionVideo: 无需训练的条件引导文本到视频生成
在本文中,我们介绍了一种无需训练的文本到视频生成方法,通过利用现有的文本到图像生成方法生成逼真的动态视频,这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性 - 条件扩散蒸馏
通过图像条件实现的一种新颖的有条件蒸馏方法,将扩散模型的先验知识与图像条件相结合,大大简化了以往两阶段的蒸馏过程,并通过少量的额外参数和冻结的无条件主干网络实现了一种新的高效蒸馏机制,实验结果表明,该方法在多个任务上的表现优于现有的人工蒸馏 - 基于条件评分的神经符号约束的生成模型
提出了一种从条件的基于分数的生成模型中强制执行任意逻辑约束条件进行采样的方法,采用柔性和数值稳定的神经符号框架来编码逻辑约束条件,并通过有效的启发式算法改进了近似条件采样算法的准确性。
- 潜空间中的流匹配
本文提出了一种在预训练自编码器的潜在空间中应用流匹配的方法,以实现高分辨率图像合成的计算效率和可扩展性的提高,并将各种条件集成到流匹配中进行条件式生成任务,包括标签条件下的图像生成、图像修复和语义到图像的生成。通过大量实验,本方法在各种数据 - 基于分数的条件生成:自校准分类器引导下使用较少标记数据
通过将分类器作为 SGM,并利用少量标记数据,提供条件生成。
- 扩散模型中实用且渐近精确的条件抽样
本文提出了一种名为 Twisted Diffusion Sampler 的串行蒙特卡罗算法用于生成条件分布,该算法具有更高的计算效率和更准确的近似度,并成功应用于蛋白质设计。
- 用于大规模图形生成的分层 GNN
该研究提出了一种名为 HIGGS 的模型无关框架,使用具有条件生成能力的 GNN 模型以分辨率层次结构采样图来生成具有大规模且具有现实局部结构的图。
- VillanDiffusion:基于扩散模型的统一后门攻击框架
本文介绍了一个统一的后门攻击框架(VillanDiffusion),用于扩展目前对扩散模型(DMs)的后门分析范围,并通过实验展示了该框架有助于不同 DM 配置的后门分析,并提供了有关基于标题的后门攻击 DMs 的新见解。
- 基于扩散模型的认知启发跨模态数据生成
探索一种基于扩散模型的跨模态生成方法,通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性,实现数据生成和多种模态的条件生成。
- CVPRLayoutDM: 可控布局生成的离散扩散模型
本研究旨在以离散状态空间扩散模型为基础,通过控制布局生成算法的可控布局生成方式,包括类型或特定元素的位置等来解决各种布局生成任务。最终我们提出的 “LayoutDM” 模型能够自然地处理离散表示中的结构化布局数据,并通过模态逐渐推断出无噪声 - CVPR基于分离扩散模型的统一布局生成
本文提出了一种布局扩散生成模型,旨在构建元素分类、大小、位置和元素之间关系不同的图形场景中的图形布局。布局扩散生成模型通过解耦扩散算法实现了单个协调的布局生成任务。该方法可生成任意可用元素属性条件下的布局,实验证明其在功能和性能方面都优于现 - 基于 Transformer 的条件生成对抗网络用于多元时间序列生成
本文通过引入编码上下文并在条件生成对抗网络中使用,扩展了基于 Transformer 的时间序列生成对抗网络 (TTS-GAN),从而可以使用一个模型来拟合具有多个子组件的混合分布。通过定性和定量的评估指标,我们展示了该模型可以生成高维度和 - DSE-GAN: 动态语义演化生成对抗网络用于文本到图像生成
本文提出了一种新的动态语义演化生成对抗网络(DSE-GAN),采用单个生成器 - 鉴别器对的单个对抗训练架构,在每个阶段根据历史阶段的状态(即历史阶段的文本和图像特征)对文本特征进行自适应重新组合,以在粗到细的生成过程中提供多样化和准确的语 - GAUDI:用于沉浸式 3D 场景生成的神经结构设计师
GAUDI 是一种生成模型,能够捕捉到复杂、逼真的三维场景的分布,并能够实时渲染出来。它以一种可扩展但强大的方式解决了这个具有挑战性的问题,首先优化了一个潜在表示,将辐射场和摄像机姿态进行了解耦。然后利用这个潜在表示来学习一个生成模型,使得 - ACLRe2G: 检索、排序、生成
Re2G 利用神经检索和排名策略结合 BART 序列生成器,在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升,是目前 KILT 排行榜上最先进的模型。
- 带有问答蓝图的条件生成
本文介绍了一种利用文本计划作为中介表示来使条件生成更加有根据的方法,并以问题 - 答案对的序列形式对文本计划进行了新的概念化,提出了 Transformer 模型,实现了将计划纳入生成输出的目的。