BriefGPT.xyz
大模型
Ask
alpha
关键词
hyena mechanism
搜索结果 - 1
拾獲的鬣狗:将 Transformer 精简为长卷积模型
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
PDF
5 months ago
Prev
Next