Jun, 2024

带专家建议的强盗问题的改进遗憾界限

TL;DR通过受限反馈模型,本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界,其中下界为 O (sqrt (KT ln (N/K))),上界与之相匹配,并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时,对于标准反馈模型,本研究提供了一种新的基于实例的上界,该上界取决于专家之间的一致性,并相比之前的结果提供了对数级的改进。