Dec, 2023

超越预期回报:在评估强化学习算法时考虑政策可复制性

TL;DR研究表明,强化学习中存在噪音和随机性,现有的评估程序仅使用期望回报评估政策,限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标,为用户提供选择所需性能与重复性权衡的参数,并通过大量实验验证了这些指标的益处。