ICLRSep, 2022

半结构化数学推理的策略梯度动态提示学习

TL;DR本研究介绍了一个新的数据集 TabMWP,其中包含需要在文本和表格数据上进行数学推理的问题,以及新的方法 PromptPG,使用策略梯度从少量训练数据中选择上下文示例并构造相应的提示,以优化大型语言模型在此类复杂数学推理问题上的表现。该方法提高了 5.31%的准确性,并显着减少了预测差异,验证了其在选择上下文示例方面的有效性。