Mar, 2025
SimpleRL-Zoo:研究和驯服野外开放基础模型的零强化学习
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for
Open Base Models in the Wild
TL;DR本研究探讨了零强化学习训练在多个基础模型中的应用,解决了当前研究集中于Qwen2.5模型的局限性。通过调整奖励格式和控制查询难度等设计策略,我们在推理准确性和回复长度上取得显著进展,并首次在小型模型中观察到“恍然大悟”的现象。我们开源了相关代码、模型和分析工具,以支持进一步研究。