BriefGPT.xyz
Ask
alpha
关键词
probabilistic margin condition
搜索结果 - 1
AAAI
广义线性背景下双重双重稳健汤普森抽样
提出了一种新颖的上下文强化学习算法,使用 double doubly-robust estimator 实现对所有上下文的独立性考虑,并在概率保证条件下证明了广义线性模型赌博机的后悔上限。
PDF
2 years ago
Prev
Next