BriefGPT.xyz
Ask
alpha
关键词
stochastic environments
搜索结果 - 25
ICML
针对限价订单簿动态的逆强化学习研究
本研究探讨了 IRL 是否能从金融随机环境(LOB)中的代理中推断出奖励,并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络(BNN)来模拟其潜在奖励函数,说明非线性奖励函数产生的复杂行为可以通过推断来推断。
PDF
5 years ago
在随机和对抗半臂匪中的最优解决方案
开发出新的半强化学习算法,不需要先验信息,可同时在随机环境和对抗环境下获得对数级和平方级的遗憾,并通过在合成数据上的实验证明了其性能的一致性和优越性。
PDF
5 years ago
将对抗保证与随机快速率结合应用于在线学习
本研究考虑在线学习算法在对抗环境中可以保证最坏情况下的后悔率,而在有利的随机环境下能够自适应地表现良好,并通过 Bernstein 条件量化随机环境的友好程度,证明了两种最近的算法自适应于随机环境的 Bernstein 参数,并证明这些算法
→
PDF
8 years ago
汤普森抽样在一般环境中是渐近最优的
本研究提出了一种 Thompson 抽样的变种,用于非参数强化学习中的一类计数的随机环境中,实现了学习环境类的效果,同时假设为可恢复情况下遗憾率是亚线性的。
PDF
8 years ago
在时间逻辑约束下的大致近似正确的 MDP 学习与控制
此篇论文探讨了在未知、随机环境中,通过建立模型、构造符合某些临时逻辑规则要求的 MDP,并通过 PAC-MDP 的方法,利用数据、空间和时间进行迭代更新,得到了一个在一定条件下接近最优的策略,从而达到在给定规则下最大化概率的目的。
PDF
10 years ago
Prev
Next