BriefGPT.xyz
Ask
alpha
关键词
treatment assignment policies
搜索结果 - 1
比例响应:用于简单和累积遗憾最小化的情境赌博机算法
提出了一种新的基于上下文 Bandit 算法的族群,利用 “保序手臂集” 提供每个上下文的一组手臂,覆盖了上下文特定的最优手臂,在简单遗憾最小化和累积遗憾最小化方面都有优异表现。
PDF
a year ago
Prev
Next