Feb, 2024

大型语言模型的免训练长篇背景文本扩展

TL;DR通过使用 Dual Chunk Attention (DCA) 来实现对超过 100k 个 token 的上下文窗口的支持,从而达到与有限调优模型相媲美,甚至更好性能的 70B 模型。