IJCAIMay, 2023
更少获取更多:通过更强的性能保证实现安全的策略提升
More for Less: Safe Policy Improvement With Stronger Performance Guarantees
Patrick Wienhöft, Marnix Suilen, Thiago D. Simão, Clemens Dubslaff, Christel Baier...
TL;DR提出了一种改进强化学习应用中特定问题的方法,可以显著减少样本复杂度,该方法使用隐式变换来推导更紧密的改进边界,透过实例展示该方法在改进 SPIBB 算法上的功效。