BriefGPT.xyz
Ask
alpha
关键词
optimistic algorithm
搜索结果 - 6
线性 MDPs 中具有累积赌臂反馈的近最优遗憾
该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法,并使用新的对冲方案构建政策优化算法,对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。
PDF
2 months ago
广义线性赌博机中的延迟反馈:重访
本文以延迟反馈形式的一般化线性赌博机作为研究对象,通过设计乐观的算法,使得其失效惩罚与决策次数无关,从而大幅提高了现有研究中最优遗憾界的表现。
PDF
2 years ago
ICML
改进后的逻辑回归赌博机算法
本研究提出了一种针对逻辑回归赌博机的新方法,避免了先前算法中会导致较差实验结果的一种问题,并获得了较紧的后果界限,这种算法不依赖于制定决策时的尺寸。
PDF
4 years ago
非平稳环境下的加权线性赌博机
该研究利用 D-LinUCB 算法解决了随机线性 bandit 模型中的非平稳线性回归模型,通过使用加权最小二乘估计器进行序列预测,同时提供了理论保证和实验表现。
PDF
5 years ago
通过马尔可夫链浓度推导强化学习的遗憾界
针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程,在简单的乐观算法下,$T$ 步后 $\tilde {O}(\sqrt {t_{mix} SAT})$ 的遗憾度可推导出,这些界限是所有给定
→
PDF
6 years ago
半强化反馈下的最优资源分配
研究一种顺序资源分配问题,包括一个固定数量的重复工作,每次时间步骤经理都应该在工作之间分配可用资源以最大化完成的工作数量的期望值。
PDF
10 years ago
Prev
Next