BriefGPT.xyz
Ask
alpha
关键词
adversarial linear bandits
搜索结果 - 1
使用线性函数逼近学习无限时间平均回报马尔可夫决策过程
开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设 MDP 具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
PDF
4 years ago
Prev
Next