BriefGPT.xyz
Ask
alpha
关键词
information-theoretic limitations
搜索结果 - 2
马尔可夫决策过程中因果信息和价值的统一贝尔曼方程
研究人工智能代理和其环境的交互,探讨了在信息理论限制下如何通过强化学习算法使代理能够在无限时间范围内获得最大化的预期回报。首次提出了环境和代理之间因果信息的贝尔曼递归方程,与值函数的贝尔曼递归方程结合使用。
PDF
7 years ago
高维下选择二元图模型的信息论极限
研究二元马尔可夫随机场中,图形选择问题在高维情况下的信息论局限性,为具有最多 k 条边的 p 个定点图的类 $Gpk$ 以及最高 degree 不超过 d 的 p 个定点图的类 $Gpd$,提出了正确图形选择的必要和充分条件,并建立了一个图
→
PDF
15 years ago
Prev
Next