BriefGPT.xyz
Ask
alpha
关键词
memory capability
搜索结果 - 1
离线预训练加速探索和表示学习
从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型,能够显着提高 NetHack 基准测试的样本效率,同时突出了我们实验设置的各种组成部分和关键洞察。
PDF
a year ago
Prev
Next