BriefGPT.xyz
Ask
alpha
关键词
max-min problem
搜索结果 - 1
使用离线数据的强化学习算法
该论文提出一种名为 RFQI 的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。
PDF
2 years ago
Prev
Next