Jun, 2024

缺失和矛盾条件下数学推理的鲁棒性评估

TL;DR通过引入 Problems with Missing and Contradictory conditions(PMC)基准测试和两个新的评估指标,我们发现现有的 few-shot prompting 方法在处理缺失和矛盾条件的问题时效果不佳。为了解决此问题,我们提出了一种名为 SMT-LIB Prompting (SLP) 的新型 few-shot prompting 方法,通过利用 SMT-LIB 语言来建模问题,并采用双重检查求解策略来提供最终反馈,实验证明我们的 SLP 方法在处理缺失和矛盾条件问题时优于现有方法。