BriefGPT.xyz
Ask
alpha
关键词
ergodic
搜索结果 - 6
关于连接型 MDP 中价值迭代的收敛性
该论文证明,具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛,适用于折扣和平均奖励标准。
PDF
a month ago
机器学习引起的幂律动态
该研究考察了一种新的随机微分方程 —— 称为幂律动力学 —— 以及它的平稳分布和遗传时间,证明了在学习速率足够小的情况下,该幂律动力学是遗传的且具有唯一的平稳分布。
PDF
a year ago
通过马尔可夫链浓度推导强化学习的遗憾界
针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程,在简单的乐观算法下,$T$ 步后 $\tilde {O}(\sqrt {t_{mix} SAT})$ 的遗憾度可推导出,这些界限是所有给定
→
PDF
6 years ago
从短轨迹中估计可逆 Markov 链的谱间隔
该研究旨在探讨如何从观察到的 Markov Chain 中估计其谱隙,研究表明通过观察 $\tilde {O}(\frac {1}{\gamma \pi_\star})$ 步,就可以高概率地估计出其谱隙。
PDF
8 years ago
Koopman 操作符的谱特征的遍历理论、动态模态分解与计算
本文研究了基于 Hankel 型数据矩阵的 Dynamic Mode Decomposition 算法在计算无限维 Koopman 算子的特征值和特征函数上的收敛性,证明了在刻画极限动力学系统的哈尔小波基函数上,DMD 算法的向量投影可用于
→
PDF
8 years ago
社交网络中的意见波动和分歧
研究了一种简单的舆论动态模型,其中包括不同类型的代理人,他们的信仰会随着时间和社交邻居的信息发生变化。在这种社会结构中,我们证明了意见动态无法收敛到一致,但相反,意见动态保持在同一种分布。
PDF
14 years ago
Prev
Next