BriefGPT.xyz
Ask
alpha
关键词
unknown parameters
搜索结果 - 3
线性二次调节器的样本复杂度:强化学习视角
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
PDF
3 months ago
学习非马尔科夫行为的极限:费舍尔信息速率和超额信息
从时间序列数据中学习未知参数的基本极限是我们的研究方向,我们发现最优推断的无偏估计与观测长度成比例,并得到了闭合形式表达式。
PDF
9 months ago
基于 Thompson Sampling 的未知线性系统学习控制
引入 Thompson 采样算法应对 LQ 控制问题的未知系统参数,该算法被称为具有动态阶段的 Thompson 采样(TSDE),其中包括两种停止准则来确定动态阶段的长度并呈现出具有 O (sqrt (T)) 的期望后悔值的性质,加入重启
→
PDF
7 years ago
Prev
Next