Jun, 2020

神经执行引擎:学习执行子程序

TL;DR通过研究数值子程序,该论文发现基于 transformer 的序列到序列模型可以学习排序等子程序,但当列表长度超出训练集时,性能迅速下降。作者提出了一种条件掩蔽机制来解决这个问题,并展示了使用二进制表示编码数字可以处理训练过程中未见数据的能力,从而取得更好的推广效果。