大型语言模型理解布局

Jul, 2024

Large Language Models Understand Layouts

Weiming Li, Manni Duan, Dong An, Yan Shao

TL;DR大型语言模型 (LLMs) 在自然语言处理 (NLP) 任务中展现出非凡的能力。本文展示了除了文本理解能力外，LLMs 还能够处理由空间标记指定的文本布局。通过在各种类型的布局敏感数据集上进行一系列实验，我们发现 LLMs 的布局理解能力主要是通过预训练编码数据引入的，并在指令调整阶段进一步增强。此外，布局理解可以通过集成低成本、自动生成的文本游戏数据来提高。最后，我们展示了布局理解能力对于构建高效的视觉问答 (VQA) 系统的益处。

Abstract

large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing →

发现论文，激发创造

SpartQA：面向空间推理的文本问答基准

本文提出了一个自然语言文本中空间推理的问答基准，其中包含更现实的空间现象，并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说，我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明，进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力，从而有助于更好地解决两个外部数据集，即bAbI和boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。

Apr, 2021

LayoutGPT：大型语言模型的构成性可视化规划与生成

LayoutGPT 是一种利用 LLMS 生成样式表语言的方法，能够生成多个视觉域中的可信布局，包括三维室内场景；当与下游图像生成模型相结合时，比文本到图像模型系统表现更好，并可在正确性方面与人类用户进行比较，同时在 3D 室内场景合成方面也与监督方法实现相当的性能。

May, 2023

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了LLMs（特别是GPT-3.5-turbo，GPT-4和Llama2系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现LLMs的错误反映了空间和非空间因素。这些发现表明，LLMs似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

LayoutPrompter: 唤醒大型语言模型的设计能力

条件图形布局生成的研究，通过上下文学习以增强数据效率和通用性，提出了基于大型语言模型的LayoutPrompter方法。在各种布局生成任务上的实验证明了LayoutPrompter方法在低数据情景下的优越性能。

Nov, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

显式表示语法提升预测意外情境下的句子布局

通过自然语言句子中的识别视觉实体和将其按照二维空间布局排列，需要对语言和空间进行构造性理解。本研究通过对比显示，如果句子提到了在训练期间看到的类似实体关系，则可以从隐式或显式编码句子句法的语言表示中预测布局。为了测试构造性理解，我们收集了一组语法正确的测试句子和布局，它们描述了在训练期间很可能没有见过的实体和关系的组合。结果显示，在这个测试集上的表现大幅下降，表明当前模型依赖于训练数据中的相关性，并且在理解输入句子的结构方面存在困难。我们提出了一种新颖的结构损失函数，更好地强制执行输入句子的句法结构，并在以文本为条件的2D空间布局预测任务中取得了显著的性能提升。该损失函数有潜力在其他生成任务中使用，其中基础的调节方式是树状结构。代码、训练模型和USCOCO评估集将通过GitHub提供。

Jan, 2024

文本描述中的顺序对大型语言模型的空间感知能力的影响

我们的研究通过彻底研究大型语言模型在图形推理方面的问题，揭示了文本序列对于大型语言模型的空间理解的影响，发现图描述性文本序列显著影响大型语言模型在图形推理中的性能，通过改变图描述性文本序列，我们将大型语言模型的性能从42.22％提高到70％。此外，我们评估了大型语言模型在图形大小方面的性能，发现大型语言模型的推理性能并不随着图形大小的增加而单调减少。最后，我们引入了用于评估大型语言模型在不同图形大小上性能的Scaled Graph Reasoning基准。

Feb, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

LayoutLLM：利用大型语言模型对版面指令进行调优以提高文档理解能力

本研究提出了一种基于LLM / MLLM的文档理解方法LayoutLLM，核心是一种专门设计的布局指令调整策略，通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用，同时使用LayoutCoT模块来生成准确答案并提升文档理解的性能。

Apr, 2024

一个框框相当于一个记号：在大型语言模型中交叉布局和文本以实现文档理解

通过将OCR派生文本和空间布局与大型语言模型（LLM）相结合，并在LayTextLLM中交织布局和文本，可以显著提高文档理解任务的效果。LayTextLLM在布局和文本数据的交互中简化了操作，并在关键信息提取（KIE）和视觉问答（VQA）方面展示出更好的性能。

Jul, 2024