BriefGPT.xyz
Ask
alpha
关键词
reward structures
搜索结果 - 3
多项式逻辑回归赌博机的几乎极小极大后悔
本论文研究了上下文多项式逻辑(MNL)弃权问题,其中学习代理根据上下文信息顺序选择一组,用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异,并且这些边界之间奖励结构的变化使得追求最优性变得复
→
PDF
2 months ago
具有时间分区奖励的多臂赌博机问题:部分反馈的重要性
论文研究了一种新颖的赌臂算法,名为具有时间分区奖励的多臂赌博机(TP-MAB),解决了工业在线应用中数据逐步变得可用的问题,并通过提供两种算法解决 TP-MAB 问题,证明了该算法与当今最好的延迟反馈赌臂算法相比较而言,在典型情况下,效果更
→
PDF
2 years ago
ICML
改进后的逻辑回归赌博机算法
本研究提出了一种针对逻辑回归赌博机的新方法,避免了先前算法中会导致较差实验结果的一种问题,并获得了较紧的后果界限,这种算法不依赖于制定决策时的尺寸。
PDF
4 years ago
Prev
Next