BriefGPT.xyz
Ask
alpha
关键词
universal transformers
搜索结果 - 2
利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型
本文提出一种基于通用 Transformer 的深度学习模型,通过发现高效的算数程序,利用外部的网格状记忆进行多位数的加法计算,并且发掘了人类类似的计算策略,如位值对齐。
PDF
2 years ago
Transformers 中层间参数共享经验
提出一种参数共享方法,通过针对 Transformer 和 Universal Transformer 的参数共享策略提高计算效率,并验证其在大数据配置中的有效性。
PDF
3 years ago
Prev
Next