Jul, 2022

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

TL;DR本文提出一种基于通用 Transformer 的深度学习模型,通过发现高效的算数程序,利用外部的网格状记忆进行多位数的加法计算,并且发掘了人类类似的计算策略,如位值对齐。