Apr, 2024

Megalodon: 高效的 LLM 预训练与无限上下文长度的推断

TL;DRMegalodon 是一种用于有效的序列建模,能处理长序列的神经架构,通过引入多个技术组件,包括复杂的指数移动平均值、时间步归一化层、归一化注意机制和双跳剩余配置,提高了其能力和稳定性,在与 Llama2 的对比中在 70 亿参数和 2 万亿训练标记的规模上比 Transformer 更高效。