May, 2023

使用 Transformers 进行数学推理系统评估的符号框架

TL;DR使用数据生成方法和符号代数,对变换器编码器的数学推理和泛化进行了 200,000 个例子的超大规模实验,并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明,扰动严重影响性能,并且可以将 F1 分数降至低于 17%,这表明推理主要由与数学运算的深层理解无关的表层模式所支配。