本研究利用香农熵的谱分解方法,对 Markov 过程的特征,以及如可表示性,可继承性和可压缩性等属性进行研究。研究者还开发了一种谱方法,用于估计低秩 Markov 模型的转移矩阵,以及恢复状态聚合和可堆叠分区等潜在结构。
Feb, 2018
本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数,采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。
Apr, 2023
研究了强化学习中的状态聚合及特征学习,通过提出基于聚合过程的马尔科夫决策过程,推广了现有的聚合结果,解决了强化学习中状态空间大小的上限问题。
Jul, 2014
使用离散状态空间隐马尔可夫模型、最新的神经网络架构和受向量量化变分自动编码器启发的训练过程,结合大数据集中成千上万个异构时间序列的预测任务是众多领域的一个关键统计问题。我们提出了一种新的预测模型,引入了离散后验分布和两阶段训练过程,从而提供了对潜在状态和发射分布参数的交替训练。通过学习多个发射规律和根据隐藏过程动力学临时激活它们,所提出的方法能够探索大数据集和利用可用的外部信号。我们使用多个数据集评估了该方法的性能,并展示它优于其他最先进的解决方案。
Apr, 2024
通过扩展 Extreme State Aggregation(ESA)框架到联合状态 - 动作聚合,同时解除 ESA 中聚合的策略统一性条件,可以实现更粗糙的真实环境建模,进而将更多状态聚合起来,即使状态空间复杂庞大,也可以保证近乎最优的性能。
Nov, 2018
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题,其状态与特征相关。我们讨论了这种聚合的性质和可能的实现,其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为,通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数,从而潜在地导致更有效的政策改进。
Apr, 2018
本文运用网络优化和统计抽样技术,克服了计算 Kantorovich 度量在实践中的成本问题,提出了一系列用于 MDP 状态聚合的距离函数,这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡,并对这些权衡进行了实证评估。
Jun, 2012
我们提出了一种新的层次切换状态模型,可以以无监督方式进行训练,同时解释系统层面和个体层面的动态,通过观测到的链条在实体和系统层面之间的反馈来提高灵活性,通过实验验证了模型在预测未来个体行为方面的优越性,并能解释群体动态。
Jan, 2024
可以用大小受控制的边际重构出一种矩阵乘积算子,并证明了针对 C*- 有限相关的状态可以获得一个更精确的误差界,此外还可以应用于其他有趣状态的竞争性算法。
Dec, 2023
该论文提出了一种基于得分的数据同化方法,通过生成所有状态来实现非自回归推断,将观测模型与训练过程分离,并对得分模型进行训练。
Jun, 2023