BriefGPT.xyz
Ask
alpha
关键词
multi-modal data distributions
搜索结果 - 1
离线强化学习的保守型 Q 学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离
→
PDF
4 years ago
Prev
Next