Jun, 2024

多臂赌博机优化中的满意度探索

TL;DR基于满足性的探索概念,我们考虑了强化学习中满足性探索问题。我们提出了 SELECT 算法模板,通过低下界置信区间检验实现了广泛的满意后悔常数。通过与学习预言机合作,SELECT 不仅在可实现情况下找到潜在的满足性臂,还在不可实现情况下保证标准的后悔率,我们通过数值实验验证了 SELECT 在多种优化设置中的性能。