Oct, 2023

具有固定置信度的不安定赌博机中的最佳臂标识

TL;DR在具有有限个臂的不安定多臂赌博问题中,通过分析某个马尔可夫决策过程及其状态-行动访问比例,确定最佳臂的策略和相应的期望停止时间,从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。