Aug, 2023

语言模型的数值计算能力:从记忆到计算

TL;DR该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。