MMJun, 2020

凸凹和背包约束下的有约束情节增强学习

TL;DR我们提出了一个算法,用于带有约束的表格式状态机器学习,并提供了强有力的理论保证,适用于具有凹收益和凸约束或具有纯硬约束(背包)的情况。我们的实验表明,所提出的算法在现有的约束性情境中明显优于以前的工作,且超过线性约束和只有一个情节的简单情境。