BriefGPT.xyz
Ask
alpha
关键词
importance weighting risk estimators
搜索结果 - 1
悲观的脱机政策评估、选择和学习的对数平滑
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新
→
PDF
a month ago
Prev
Next