使用 Token-Critic 改进的遮蔽图像生成
本文提出了一种新的图像合成模型 ——MaskGIT,采用双向 transformer 解码器,通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens,迭代地改进图像以获得高保真度和高分辨率的生成图像,并在 ImageNet 数据集上优于现有模型,同时通过自回归解码加速达到 64 倍,还可轻松扩展到各种图像编辑任务中。
Feb, 2022
该论文提出了一种用于掩码非自回归生成建模的新型采样方案,该方案通过解决 TimeVQVAE、MaskGIT 和 Token-Critic 在采样过程中的局限性,显式保证采样的多样性和真实性,并由三个阶段组成:Naive Iterative Decoding、Critical Reverse Sampling 和 Critical Resampling。通过在 UCR 时间序列存档中使用所有 128 个数据集,在无条件采样和类条件采样方面,我们展示了 ESS 的显著性能提升。
Sep, 2023
本文提出了一种学习可采样模型的 Text-Conditioned Token Selection(TCTS)方案,通过文本信息的本地化监督来选择最优选项,这样可以提高生成图像的质量和与给定文本的语义对齐度,并引入一种统一的采样策略 Frequency Adaptive Sampling(FAS),以进一步提高图像质量和文本对齐度。我们在各种生成任务中验证了 TCTS 与 FAS 的功效,并展示它在图像 - 文本对齐和图像质量方面显著优于基线,文本条件采样框架可以将原始推理时间缩短 50% 以上,这是继承基线模型的一个重大优势。
Apr, 2023
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为 346M,使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。
Dec, 2023
本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法,通过计算每个 token 的优势和值实现直接优化语言质量指标,取得了在 MSCOCO 数据集上的最先进性能。
Jun, 2017
本文提出了 Mask CTC 框架,它是一种新颖的非自回归端到端自动语音识别(ASR)框架,它通过加强 CTC 的输出来生成序列,并使用 Transformer 编码器 - 解码器进行训练。实验结果表明,相比标准的 CTC 模型,Mask CTC 模型在不同的语音识别任务中表现更优,并显著减少了推理时间。
May, 2020
我们提出了使用扩散过程模型每个令牌的概率分布,从而可以将自回归模型应用于连续值空间的方法,并通过定义扩散损失函数来替代离散化的令牌化。通过消除向量量化,我们的图像生成器在享受序列建模的速度优势的同时取得了强大的结果,并希望该方法能促进在其他连续值领域和应用中使用自回归生成。
Jun, 2024
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
Oct, 2020