- 随机梯度分段确定性蒙特卡罗采样器
通过近似模拟带有子抽样的分段确定性马尔可夫过程(PDMPs)的方法,可以从后验分布中进行可扩展的抽样。这种方法的效率类似于随机梯度 Langevin 动力学,但更为稳健。
- 关于 LLMs 中的分词理论
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
- 基于深度学习的马尔可夫模型中时间相关参数的估计,应用于非线性回归和随机微分方程
我们提出了一种新颖的深度学习方法,用于通过离散采样估计马尔科夫过程中的时变参数。通过将参数近似重新构造为最大似然方法的优化问题,我们的方法与传统的机器学习方法有所不同。实验验证集中在多元回归和随机微分方程的参数估计上。理论结果表明,在特定条 - 通过时滞信息瓶颈对马尔可夫过程进行潜在表达和模拟
在这篇论文中,我们介绍了一种将复杂系统映射到简化表示空间,并模拟时间大跳变化的推理过程。我们提出了基于信息理论的时间滞后信息瓶颈(T-IB)目标,旨在捕捉相关的时间特征,简化仿真任务并最小化推理错误。实验结果表明,T-IB 学习了信息最优的 - 利用隐马尔可夫模型非参数识别和估计收入动态:来自 PSID 的证据
本文提出了一种隐马尔可夫模型,旨在研究收益持续性的复杂性质。应用该模型于收入动态面板研究数据集,研究发现收益过程表现出非线性持久性、条件偏度和条件峰度,与此同时,短期成分还具有非高斯性质。
- 将系统解释为解决 POMDP:朝着正式理解机构的一步
通过部分可观察的马尔可夫过程理论,我们可以从信仰和目标方面解释系统的功能和代理性,并将其视为解决部分可观察的马尔可夫过程的解。
- MGDCF: 使用马尔科夫图扩散进行距离学习的神经协同过滤
该研究探讨了基于马尔可夫过程的距离学习统一框架下的 Markov Graph Diffusion Collaborative Filtering (MGDCF) 文本的关键词,该文献讨论了协同过滤、图神经网络、距离学习、马尔可夫过程与推荐系 - 在 Colonel Blotto 中的强化学习智能体
本文测试了基于强化学习的代理在 Colonel Blotto 环境下的表现,发现其能够轻松击败单个对手并在多个对手时表现良好,由此分析其最佳策略与单个对手时完全相反。
- MM树和低次多项式重构
本文探究了基于树结构的重建问题上低项式多项式的性能,并显示了与基于多项式的算法相比其存在的限制,此外还提出了相关的开放性问题.
- AAAI马尔可夫奖励过程中折扣值的循环估计器
研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤,实现有效的、具有强大空间和收敛性的单状态 s 值计算,以精确地评估 MDP 中的状态价值。
- MM通用语义的数学模型
该论文提出一种利用马尔可夫过程进行文本话题、同义词和语义领域提取的语义模型,通过数学分析文本中的重复模式的方法,实现了语言无关的数字指纹。这种语言无关的语义表达方式可以让机器阅读器能够自动识别不同语言的中短文本和进行自动单词翻译。
- 随机过程讲义
这是一份关于 “随机过程” 的课程笔记,除了标准的随机过程理论之外,还包含了诸如 von Neumann-Birkhoff-Khinchin 遍历定理、宏观系统平衡概念、Markov Chain Monte Carlo、Markov 决策过 - 马尔可夫环境下有限样本分析 GTD 策略评估算法
本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析,证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关,说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。
- MM一个 N 时间步长的动态链事件图
本文介绍了一种名为 NT-DCEG 的图形模型,并将其与马尔可夫过程进行了比较;我们讨论了如何利用图形模型中的拓扑关系来获得深入的理解,并通过描述犯人激进化的案例说明了其应用。
- 一种用于动态网络中潜在节点组成员的泊松伽玛概率模型
本文提出一种基于概率模型的算法,用于动态关系数据学习,利用伯努利泊松链接函数对网络节点的观测交互进行建模,并用假设为伽马分布的非负潜在节点组成员资格描述底层网络结构,而潜在成员组则根据马尔可夫过程演化。方法的最优成员组数可以由数据本身决定, - 马尔科夫过程的频谱状态压缩
本研究利用香农熵的谱分解方法,对 Markov 过程的特征,以及如可表示性,可继承性和可压缩性等属性进行研究。研究者还开发了一种谱方法,用于估计低秩 Markov 模型的转移矩阵,以及恢复状态聚合和可堆叠分区等潜在结构。
- 基于强化学习空时流行度的 5G 最优可扩展缓存
本研究提出了一个基于强化学习和全局 / 本地 Markov 过程的缓存策略框架,用于预取受欢迎的文件,以便下一次请求时可以快速提供服务。
- 连续时间蒙特卡罗的分段确定性马尔可夫过程
本文介绍了基于连续时间 Markov 过程的 Monte Carlo 方法的新发展,包括通过连续时间的 MCMC 和 SMC 算法,实现大数据后验分布采样的方法,以及如何使用子采样和解决效率问题。
- 分散式控制马尔可夫决策过程的复杂性
探讨了具有部分状态信息的分布式智能体的规划问题,介绍了对 MDP 和 POMDP 模型的推广,研究表明分散控制与集中控制在马尔可夫过程中的根本差异,相关问题不适合使用多项式时间算法来求解,需要使用双指数时间算法求解。
- 能量收集通信系统优化的学习理论方法
研究了一种采用能量收集设备和可充电电池的点对点无线通信系统,在考虑了基于马尔可夫过程的能量和数据到达模型后,采用学习理论方法,比较三种不同情况下的最优方案和性能损耗,同时还研究了在线和离线优化问题。