Jul, 2024

自我训练的语言模型用于算术推理

TL;DR使用自动化反馈的语言模型可以在算术推理上实现改进,同时在线自我训练的优势表现出其在稳定性和鲁棒性上能够明显超过监督训练。