Jan, 2017

走向可协商的强化学习:在帕累托最优顺序决策中转移优先级

TL;DR本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题,提出了一种策略表述方式,利用递归形式来得出 Pareto 最优策略的特征,其中包括机器学习会利用玩家自身的信念来评估策略效果,并根据信念和机器输入条件的贴合程度,适当调整对每个玩家效用的相对优先级。