Feb, 2024

具备调解者反馈的赌博机信息容量遗憾界限

TL;DR这项研究针对中介反馈问题,提出了一个信息论度量,称为策略集能力,用于衡量策略集的复杂性。研究在对抗性和随机性环境中采用了经典的 EXP4 算法,提供了与策略集能力相关的新后悔上界,并且改进了相关的专家建议问题。此外,针对线性赌博反馈,我们还证明了一种不可能利用策略之间的相似性的下界,并且提供了一个与策略集的信息半径相关的全信息变种的后悔上界。