Jan, 2023

单智能体强化学习的尺度定律

TL;DR研究表明,生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化,但在强化学习中,性能目标的变化不一定平稳,因而提出了内生表现作为性能度量标准,通过系列模型中达到所需返回的最小计算量来定义,研究表明内生表现同样随模型大小和环境交互呈幂律变化,与生成建模类似,最优模型大小也随训练计算能力呈幂律变化。