Jun, 2024

应用于逐步强化学习和其他领域的组合多元多臂赌博机

TL;DR引入一种新的组合多臂赌博梳理 (CMAB) 框架,具有多维和概率触发的臂 (CMAB-MT),其中每个臂的结果是一个 d 维多维随机变量,反馈遵循普通臂触发过程。