Dec, 2023

有限资源下的偏好学习复杂性理解

TL;DR奖励最大化问题中,我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法,并通过数值模拟证明了我们提出方法的有效性。