Apr, 2025
天才:一种可推广的纯自监督自训练框架用于高级推理
Genius: A Generalizable and Purely Unsupervised Self-Training Framework
For Advanced Reasoning
TL;DR本研究解决了当前大规模语言模型(LLM)推理技术对外部监督信号的依赖问题,提出了一种名为Genius的完全自监督自训练框架。通过引入逐步预见重采样策略和优势校准优化损失函数,Genius能够在没有外部辅助的情况下优化LLM,显著提升其推理能力,具有革命性的潜力。