像素的语言建模

Jul, 2022

Language Modelling with Pixels

Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux...

TL;DR该文章介绍了 PIXEL，一种基于像素的预训练语言模型，通过将文本渲染为图像，PIXEL 可以处理不同语言，特别是非拉丁文字。实验发现 PIXEL 在语法和语义处理方面表现优异，且对于噪声文本的输入更为稳健。

Abstract

language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. Tackling this bottleneck results in a trade-off between what can be represented in the embedding matrix and computational issues in

language models pixel pretrained images syntactic and semantic processing

发现论文，激发创造

像素语言模型的文本呈现策略

像素模型的渲染策略对语言模型的性能有重要影响，使用字符二元组渲染能够提高模型的性能，同时在句子级任务上不会降低处理标记和多语言任务的性能，还能以只有 2200 万参数的更小模型达到与原始 8600 万参数模型相当的性能，分析表明字符二元组渲染产生了更好的模型，但由于补丁频率偏差而导致异性的补丁嵌入空间，突显了图像补丁和记号化语言模型之间的联系。

Nov, 2023

多语言翻译的像素表达和数据效率跨语言迁移

使用像素表示方法来训练多语言机器翻译模型，实现了与子字嵌入相媲美的性能，并发现像素表示具有无缝跨语言迁移和比扩展词汇等替代方法更高的数据效率

May, 2023

Pixel-BERT：基于深度多模态 Transformer 实现图像像素与文本的对齐

Pixel-BERT 是一种多模态的深度转换器，可以通过使用图像和文本数据对其进行联合学习，从而在像素和文本级别上进行语义连接，实现视觉和语言任务的更准确和彻底的连接，并解决了视觉任务中语义标签不平衡的问题。

Apr, 2020

PIXAR: 像素空间中的自回归语言建模

PIXAR 是第一个基于像素的自回归型语言模型，它不依赖预定义的词汇表，可以用于自由形式的生成任务，并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练，PIXAR 的可读性和性能得到了显着提高，使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路，并对这些具有挑战性的任务中通常的符号输入表示（文本作为标记）的必要性提出了质疑。

Jan, 2024

PHD: 基于像素的历史文档语言建模

利用基于像素的语言模型对历史文档进行像素遮罩重建，通过生成合成扫描以模拟真实历史文档，展示模型在像素遮罩重建和语言理解能力上的卓越效果，并成功应用于历史问答任务。

Oct, 2023

像素对齐的语言模型

本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Dec, 2023

大语言模型驱动的文本到图像生成的实证研究与分析

本研究探讨使用大型语言模型作为文本编码器，在文本到图像生成中提高语言理解能力，并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型，通过轻量级适配器实现快速训练，并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量。

May, 2024

图像胜千言：语言模型基于像素进行规划

本文研究利用预训练的语言模型（PLMs）从文本指令中推理出在具体视觉环境下的计划序列，结果表明 PLMs 能够准确地规划，且强于其他方法。

Mar, 2023

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

从屏幕截图提升语言理解能力

我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数，通过掩盖和恢复截图中的图像块和文本，改善了截图语言模型的文本能力，并通过在 GLUE 任务上获得与 BERT 相当的性能（在 2% 之内）以及高达 8% 的改进，证明了所提出模型的有效性。

Feb, 2024