BriefGPT.xyz
Ask
alpha
关键词
expectile
搜索结果 - 1
强化学习中的自助法期望分位数估计
基于预期化引入一种形式的悲观主义,提出了一种新的强化学习方法 ExpectRL,并在处理过度估计问题和鲁棒性强化学习方面取得了比传统方法更好的结果。
PDF
2 months ago
Prev
Next