BriefGPT.xyz
大模型
Ask
alpha
关键词
attention operator
搜索结果 - 2
ICCV
借助过去的一点点帮助:用于图像字幕的原型记忆网络
本文介绍了一种通过原型记忆模型,在处理其他训练样本时,可以执行对激活进行注意力操作的网络,并通过 COCO 数据集上的实验进行了评估。
PDF
10 months ago
鬣狗等级制度:朝着更大的卷积语言模型
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务
→
PDF
a year ago
Prev
Next