Muse: 通过 Masked 生成变压器实现文本到图像生成
通过实验证明 MUSEd 的有效性,它是一种开源、轻量级的遮蔽图像模型(MIM),用于文本到图像的生成,相对于潜在扩散(latent diffusion)方法,MIM 在推理步骤上更少且更具可解释性,同时可以通过仅有一张图像进行附加风格的微调。
Jan, 2024
本文提出了一种新的图像合成模型 ——MaskGIT,采用双向 transformer 解码器,通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens,迭代地改进图像以获得高保真度和高分辨率的生成图像,并在 ImageNet 数据集上优于现有模型,同时通过自回归解码加速达到 64 倍,还可轻松扩展到各种图像编辑任务中。
Feb, 2022
MoMask 是一种新颖的掩码建模框架,用于文本驱动的 3D 人体动作生成,通过分层量化方案将人体动作表示为多层离散动作令牌,并使用两个不同的双向转换器进行预测和填补,实验证明在文本到动作生成任务中,MoMask 在 HumanML3D 数据集上的 FID 为 0.045(相较于 T2M-GPT 的 0.141)以及在 KIT-ML 上的 FID 为 0.228(相较于 0.514),同时可以无缝应用于文本引导的时间修补等相关任务。
Nov, 2023
本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。
Mar, 2022
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022
本文介绍了一种基于 transformer 的 autoregressive 的文本 - 图像生成方法,其与以往的一些领域特定模型相比,具有更好的尺度和零样本表现。
Feb, 2021
本篇论文介绍了 MoMA:一种基于开放词汇、无需训练的个性化图像模型,具备灵活的零样本能力。利用开源的多模态大型语言模型(MLLM),我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法,高效地将图像特征传递给图像扩散模型,从而提高生成图像中目标对象的相似度。作为一个调优自由、即插即用的模块,与其他方法相比,我们的模型只需一个参考图像即可生成具有高细节保真度、增强身份保留性和忠实响应的图像。我们的工作是开放源代码的,从而为所有人提供这些先进技术的通用访问。
Apr, 2024
本文演示了在神经图像压缩中应用面向遮蔽令牌预测训练的双向变压器以实现最先进的结果。通过使用预定义的、确定性调度,本文证明这些模型在图像压缩方面表现良好。同时在训练过程中使用面向遮蔽的关注力以及在推断过程中使用激活缓存,能够使我们的模型显著地加速(推理速度提高了 4 倍),同时只需轻微提高比特率。
Apr, 2023
该研究提出了一种名为 MUSE 的基于 Transformer 和多尺度时间传感器单元的知识追踪模型,能够有效地捕捉用户在不同时间范围内的知识状态的动态变化,并提供一种有效而强大的方法来组合本地和全局特征进行预测。该方法在 Riiid AIEd Challenge 2020 中获得了第五名。
Jan, 2021
基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器,MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射,并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码,从而同时实现了高保真度和高速度的动作生成。此外,MMM 具有固有的动作可编辑性,只需在需要编辑的位置放置掩码标记,即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法(FID 得分分别为 0.08 和 0.429),同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外,与可编辑动作扩散模型相比,MMM 在单个中档 GPU 上的速度提高了两个数量级。
Dec, 2023