Nov, 2024
多维字节对编码:缩短序列以改善视觉数据生成
Multidimensional Byte Pair Encoding: Shortened Sequences for Improved
Visual Data Generation
TL;DR本研究解决了视觉数据标记过程中缺乏全球内容感知的问题,提出了一种将字节对编码从一维扩展到多维的新方法。通过计算频繁的标记对并用新标记替换它们,研究表明该方法可以减少序列长度并提高 Transformer 在视觉数据上的训练与推理性能。更重要的是,这种无损的预处理步骤适用于大型数据集,具有显著的计算效率提升。