Jun, 2024

行动消失下的弱监督学习

TL;DR我们提出了一种方案,可以使任何多臂赌博算法在作用擦除通道下表现出与无擦除情况下不差于一阶的最坏后悔率;此方案基于一个新颖的多臂赌博设置,在该设置中,学习器需要通过擦除通道向分布式代理传达动作信息,而通过外部传感器直接收集动作回报。