Jul, 2024

大型语言模型理解布局

TL;DR大型语言模型 (LLMs) 在自然语言处理 (NLP) 任务中展现出非凡的能力。本文展示了除了文本理解能力外,LLMs 还能够处理由空间标记指定的文本布局。通过在各种类型的布局敏感数据集上进行一系列实验,我们发现 LLMs 的布局理解能力主要是通过预训练编码数据引入的,并在指令调整阶段进一步增强。此外,布局理解可以通过集成低成本、自动生成的文本游戏数据来提高。最后,我们展示了布局理解能力对于构建高效的视觉问答 (VQA) 系统的益处。