Aug, 2024

赌博机的窃语者:为不安静的赌博机学习通信

TL;DR本研究解决了在资源有限和时间动态的情况下,不安静多臂赌博机(RMABs)模型中经典方法忽视的系统性数据错误问题。我们提出了首个针对RMABs的通信学习方法,通过有效的臂之间的信息交流,显著提升了模型在面对数据错误时的表现,证实了通信策略在优化决策中的贡献。