May, 2024

任意长度的加法泛化

TL;DR本文介绍了一种新的训练方法,使得小型 Transformer 模型可以将两位数的加法推广到具有未知位数的数字,该方法模仿了一种常见的手动大数相加的技术,为我所知,这种方法以前没有在文献中探讨过,所有结果都可复现,相应的 R 代码可在 https://github.com/AGPatriota/ALGA-R/ 上获得。