Jan, 2024

PIXAR: 像素空间中的自回归语言建模

TL;DRPIXAR 是第一个基于像素的自回归型语言模型,它不依赖预定义的词汇表,可以用于自由形式的生成任务,并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练,PIXAR 的可读性和性能得到了显着提高,使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路,并对这些具有挑战性的任务中通常的符号输入表示(文本作为标记)的必要性提出了质疑。