Oct, 2023

少探索即可

TL;DR基于多臂赌博问题,通过引入调整的奖励项,考虑任务的难度,该研究提出的UCB^τ算法在全面的后悔和风险分析中被验证出具有理论上的强大性能,通过与标准UCB算法和Thompson Sampling算法在合成数据集上的比较评估,UCB^τ不仅在有效性上表现出色,而且在各种环境条件和超参数设置下具有更低的风险。