Aug, 2023
用于具有非线性赌博反馈和多样性约束的 Top-K 多臂赌博的主从深度结构
Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints
Hanchi Huang, Li Shen, Deheng Ye, Wei Liu
TL;DR我们提出了一种新颖的主从架构来解决具有非线性奖励反馈和多样性约束的前 K 项组合多臂赌博机问题,该问题是考虑赌博反馈下的组合赌博机设置中首次考虑多样性约束。