BriefGPT.xyz
Ask
alpha
关键词
empirical regret
搜索结果 - 2
决策焦点学习的强化损失函数
优化模型中的不确定参数通过预测估计,为了评估基于预测的决策质量,决策焦点学习旨在通过训练预测模型来最小化后悔,提出了三种更接近预期后悔的鲁棒损失函数,实验证明使用鲁棒后悔损失训练决策焦点学习方法能够改善测试样本的经验后悔并保持计算时间等效。
PDF
9 months ago
IJCAI
多臂赌博机连续奖励博弈中的平均场均衡
研究用连续奖励函数的均场自博弈,重点在于推导出均场平衡的存在和唯一性,并通过广泛的评估结果验证了 MAB 问题的实证后悔紧致性。
PDF
3 years ago
Prev
Next