BriefGPT.xyz
Ask
alpha
关键词
intrinsic reward framework
搜索结果 - 1
MM
内在动机的组合语言生成
本篇论文提出一种内在奖励框架,通过强化学习设置两个代理,以在三个不同的指称游戏环境下将有限通道容量与内在奖励相结合,提高新颖环境下组合性得分约 1.5-2 倍。
PDF
4 years ago
Prev
Next