BriefGPT.xyz
Ask
alpha
关键词
perceiver-based actor-critic model
搜索结果 - 1
离线演员 - 评论家强化学习在大规模模型中的扩展
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的
→
PDF
5 months ago
Prev
Next