BriefGPT.xyz
大模型
Ask
alpha
关键词
reward distribution
搜索结果 - 4
序列多臂赌博机中的奖励样本传输
在该研究中,我们考虑了一个顺序随机多臂赌博问题,在多个回合中,代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变,但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法,用于传输来自先前回合的奖励样本,并改善所有回合中的累积
→
PDF
3 months ago
强制性探索在赌博问题中的应用
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
PDF
7 months ago
具有图卷积通信的反事实多智体强化学习
该研究提出了一种基于图卷积和多因素策略梯度的架构,用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题,并在一系列任务中取得了优异表现。
PDF
4 years ago
SIGIR
非静态环境下学习上下文臂
本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
PDF
6 years ago
Prev
Next