BriefGPT.xyz
Ask
alpha
关键词
time horizon
搜索结果 - 4
带专家建议的强盗问题的改进遗憾界限
通过受限反馈模型,本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界,其中下界为 O (sqrt (KT ln (N/K))),上界与之相匹配,并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时
→
PDF
16 days ago
与学习代理人的契约
通过学习代理的重复合同,我们提供了一种动态合同的解决方案,这种合同对于知识有限的主体和代理都有利,并且可以应用于不同的时间范围。
PDF
5 months ago
逆强化学习有效视野
本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响,并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。
PDF
a year ago
无限臂线性情境赌博机的紧束悔恨界
本文研究线性上下文赌博机,特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界,其与以前的下界相匹配。
PDF
5 years ago
Prev
Next