BriefGPT.xyz
大模型
Ask
alpha
关键词
ensemble-diversified actor-critic
搜索结果 - 1
基于不确定性的离线强化学习与多样化 Q 集成
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
PDF
3 years ago
Prev
Next