Jan, 2024

拾獲的鬣狗:将 Transformer 精简为长卷积模型

TL;DR介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。