Nov, 2022

利用学习的符号抽象启动高水平数学推理

TL;DR该研究提出了一种名为学习数学抽象(LEMMA)算法,该算法可以通过引入抽象步骤来增强专家迭代,并利用层次化抽象的思想来帮助强化学习代理人解决数学问题,实验结果表明该算法可以有效提高已有代理人的解决问题能力和泛化能力。