Jun, 2024

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

TL;DR通过经验研究,我们发现利用模型生成的合成数据进行训练可以提高数学推理的性能,但是通过添加负回答可以进一步增强效果,并去除其中的虚假相关性。