BriefGPT.xyz
Ask
alpha
关键词
contextual bandit problems
搜索结果 - 4
随机线性赌博机中的近似推断贝叶斯赌博算法
提出了一个通用的理论框架来分析具体推断存在时的随机线性赌博带中的贝叶斯赌博算法,得到了 Linear Thompson Sampling 和 Linear Bayesian Upper Confidence Bound 在近似推断时保持原有
→
PDF
16 days ago
利用函数逼近进行实验规划
我们研究了上下文强化学习中的函数逼近实验规划问题,针对数据收集过程存在较大开销的情况,我们提出了两种与函数逼近相容的实验规划策略。第一种是根据奖励函数类的边界维度实现的假设者规划和采样过程,可实现最优性保证。第二种是在动作数较小的情况下,我
→
PDF
6 months ago
风险感知的神经上下文点臂连续控制
我们提出了一个风险感知的决策框架,用于处理上下文褒贬问题,并满足实际环境中的约束条件,通过采用一个多批评者的角色体系来平衡约束满足度和性能。
PDF
7 months ago
优化环境传递带宽安全探索
本文提出了一种名为 SEA 的新型学习方法,用于解决上下文乐观主义问题,它不会伤害用户体验,同时能够在探索空间中进行操作,从而有效地找到最佳策略。
PDF
4 years ago
Prev
Next