May, 2025
奖励SQL:通过逐步推理和过程监督奖励提升文本到SQL的转换
Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and
Process-Supervised Rewards
TL;DR本研究解决了在文本到SQL转换中外部过程奖励模型(PRMs)可能影响推理轨迹的问题。我们提出的Reward-SQL框架通过“冷启动,再进行PRM监督”的方法有效整合PRMs,采用最佳在线训练信号和PRM指导推理的策略,大幅提升了模型在BIRD基准测试中的表现,显示出奖励监督在文本到SQL推理中的有效性。