ACLJan, 2024

LOCOST: 面向长文档提要生成的状态空间模型

TL;DRLOCOST 是基于状态空间模型的编码器 - 解码器结构,用于带有长上下文输入的条件文本生成,具有低复杂度的计算和能够处理超长序列的能力。在长篇摘要任务上评估模型,其性能可与同等规模的顶级稀疏转换器相媲美,同时在训练过程中节省高达 50% 的内存,在推理过程中节省高达 87% 的内存。此外,LOCOST 有效地处理超过 600K 个标记的输入文本,在全书摘要任务上达到了新的最先进水平,并为长输入处理开展了新的研究视角。