BriefGPT.xyz
大模型
Ask
alpha
关键词
retro algorithm
搜索结果 - 1
审视我们忽略的事物:在基于上下文的离线元强化学习中驾驭任务表征的转移
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
PDF
a month ago
Prev
Next