Aug, 2024

JPEG-LM:将大型语言模型作为具有典型编解码器表示的图像生成器

TL;DR本研究解决了在视觉生成中的离散化问题,通过采用典型编解码器(如JPEG和AVC/H.264)直接建模图像和视频作为压缩文件,而非处理原始像素值或复杂的向量量化。这一新颖方法使生成性能在减少FID指标方面优于传统模型,特别是在生成长尾视觉元素上表现出色,推动了多模态语言/图像/视频模型的未来研究。