May, 2021

多目标 SPIBB:有限 MDPs 中带安全约束的 Seldonian 离线策略改进

TL;DR该论文探讨了如何在已知基线策略下,通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略,并提出了一种新的基于安全策略迭代的方法,以保证算法的安全性和性能。