Sep, 2023

细致的 VQ-VAE

TL;DR我们提出了一种新的方法,通过整合注意力残差编码器(AREN)和残差像素注意层来增强 VQVAE 模型的能力。我们的研究目标是改善 VQVAE 的性能,并保持实际参数水平。AREEN 编码器被设计为在多个级别上有效运作,适应不同的架构复杂性。关键创新是在 AREEN 编码器中整合了像素间自注意机制,允许我们高效地捕捉和利用潜在向量间的上下文信息。此外,我们的模型在进一步提高了表示能力的同时,采用了额外的编码级别。我们的注意力层采用了最小参数的方法,确保在其他像素的相关信息可用时才修改潜在向量。实验结果表明,我们提出的修改显著改进了数据的表示和生成,使 VQVAEs 更适用于广泛的应用领域。