IJCAIMay, 2023

更少获取更多:通过更强的性能保证实现安全的策略提升

TL;DR提出了一种改进强化学习应用中特定问题的方法,可以显著减少样本复杂度,该方法使用隐式变换来推导更紧密的改进边界,透过实例展示该方法在改进 SPIBB 算法上的功效。