Jun, 2024
深呼吸:用哨兵标记增强大型语言模型的语言建模
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens
Weiyao Luo, Suncong Zheng, Heming Xia, Weikang Wang, Yan Lei...
TL;DR我们提出了一种简单而有效的方法,通过将文本分割成多个块并在每个块的末尾插入特殊标记 <SR>,修改注意力掩码以将块的信息整合到相应的 <SR> 标记中,从而使 LLMs 能够从历史上的个别标记以及 <SR> 标记中解释信息,从而汇集块的语义信息。通过语言建模和领域外下游任务的实验验证了我们方法的优越性。