Feb, 2023

鬣狗等级制度:朝着更大的卷积语言模型

TL;DR本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。