Sep, 2023

线性最佳臂识别中的安全性价格

TL;DR介绍了具有线性反馈的安全最优臂识别框架,代理受到一些在未知参数向量上线性相关的逐阶段安全约束的限制,代理必须以保守的方式采取行动,以确保在每一轮中不违反安全约束的概率较高。提出了一种基于间隙的算法,实现了有意义的样本复杂度,同时确保逐阶段的安全性。通过实验说明了算法设计的合理性。