ICLRApr, 2021

分析 Transformer 的多项式化简能力之细微差别

TL;DR该研究旨在研究 Transformers 在多步骤的代数任务中的表现。作者提出了一个合成的多项式数据集生成算法,通过变化系数配置、输入表示、证明粒度和广泛的超参数调整,揭示了 Transformers 在数值乘法方面的困难,并针对此问题探索了课程学习和符号计算器两种方法,两种方法都比基准模型效果显著提升。