Apr, 2024

文本的双模态:视觉和文本生成预训练

TL;DR对于像素级语言模型,本论文介绍了一种新颖的预训练框架,通过在超过 4 亿个文档渲染的 RGB 图像上预训练,采用双模态训练方案,结合视觉数据和文本数据,通过下一个块预测和分类头预测进行训练,并展示了将视觉和文本数据结合的潜力及有效性。