BriefGPT.xyz
Ask
alpha
关键词
structural model
搜索结果 - 2
高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆
→
PDF
2 years ago
有限字母随机向量的张量、学习和 Kolmogorov 扩展
本文介绍了一种使用多线性代数方法实现关键点之间联合概率质量函数估计的方法,并给出了用于实现复杂度有限的高维概率的完整特征的证明和几个相关的可识别性结果。
PDF
7 years ago
Prev
Next