关键词algorithmic mutual information
搜索结果 - 2
- ICML强化学习的模块化:通过算法独立性进行信用分配
本研究提出了一种模块化信用分配的形式化理论,通过对算法自身的因果分析,将社会决策制定框架作为马尔可夫决策过程的更精细正式框架,证明了一些单步时序差分行为价值方法满足这一约束条件,而所有政策梯度方法都不满足该约束条件,传输学习的实证研究表明这 - 运用算法马尔可夫条件进行因果推断
本文介绍了一种基于单个观测数据进行因果推断的方法,使用条件算法互信息代替因果马尔科夫条件中的条件随机独立性,解释了单个对象之间相似性的因果图生成,并使用可判定复杂度标准替代 Kolmogorov 复杂度,提出了一种新的因果推断原则,从而可以