Dec, 2023

目标识别作为下一个令牌预测

TL;DR通过将图像嵌入到文本令牌的自回归预测过程中,我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合,其中包括将不同标签的令牌建模为独立,并将图像令牌视为前缀。我们提出了一种高效的一次性采样方法来同时并行采样多个标签的令牌,并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一个简单的策略,通过简单丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法在保持整体模型性能的同时具有显著的效率优势。