BriefGPT.xyz
Ask
alpha
关键词
linear feedback
搜索结果 - 1
线性最佳臂识别中的安全性价格
介绍了具有线性反馈的安全最优臂识别框架,代理受到一些在未知参数向量上线性相关的逐阶段安全约束的限制,代理必须以保守的方式采取行动,以确保在每一轮中不违反安全约束的概率较高。提出了一种基于间隙的算法,实现了有意义的样本复杂度,同时确保逐阶段的
→
PDF
10 months ago
Prev
Next