Jun, 2024

深呼吸:用哨兵标记增强大型语言模型的语言建模

TL;DR我们提出了一种简单而有效的方法,通过将文本分割成多个块并在每个块的末尾插入特殊标记 <SR>,修改注意力掩码以将块的信息整合到相应的 <SR> 标记中,从而使 LLMs 能够从历史上的个别标记以及 <SR> 标记中解释信息,从而汇集块的语义信息。通过语言建模和领域外下游任务的实验验证了我们方法的优越性。