Feb, 2024

混合专家解开深度强化学习的参数缩放

TL;DR本文研究了监督学习、缩放定律、强化学习、专家混合和参数可扩展性,并通过实证提供了发展强化学习缩放定律的有力证据。