BriefGPT.xyz
大模型
Ask
alpha
关键词
dense-attention-free architectures
搜索结果 - 1
鬣狗等级制度:朝着更大的卷积语言模型
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务
→
PDF
a year ago
Prev
Next