本文综述了最近在机器学习和计算统计学领域提出的两类解决元数据分析中基于独立假设的马尔科夫链蒙特卡罗方法的方法:分而治之的方法和基于子采样的算法,并提出了一种新颖的基于子采样的方法,并在某些统计模型的有利情况下,每次迭代可以要求少于 $O (n)$ 数量级的数据点似然性评估,然而,在目标后验分布的 Bernstein-von Mises 逼近存在缺陷的情况下,我们目前只能提出能在基于子采样的方法中表现良好的方法,而在其他情况下这仍然是一个未解决的挑战。
May, 2015
该论文提出了一种并行的马尔可夫链蒙特卡罗算法,能够降低学习过程中的同步需求所带来的通信成本,并成功地实现了在多台机器上独立处理多个数据子集,从而生成大数据集的后验分布样本。
Nov, 2013
该研究提出了一种解决在科学领域中使用高级计算机模拟时出现的后验推断问题的新方法,这种方法使用学习的灵活的摊销估计量来近似似然 - 证据比率,并可以嵌入 MCMC 采样器中以从难以处理的后验中获得样本。
Mar, 2019
本文提出了通过全局变量一致优化的工具性层级模型,将似然函数表示为多个数据子集相关的项的乘积。该模型下引入了辅助统计参数并得到了基于扩展状态空间的分布式 MCMC 算法,同时提出了 SMC 采样器用于自动确定合适的关联强度并应用于偏差校正技术。
Jul, 2018
本文提出了一种任意时间的臭名昭著的并行蒙特卡洛方法,适用于无法计算似然函数的模型。该算法采用优化程序,以最小化模拟器总结统计和数据的距离。通过采用先验和雅各比重估这些样本的权重,以蒙特卡洛估计的方式来表示后验分布。
Jun, 2015
本文提出两种应用并行处理的方法以替代传统的 Markov Chain Monte Carlo (MCMC),即采用 Sequential Monte Carlo (SMC) 取样器或数据分区,并通过实验测试发现在多核处理器中使用 SMC 比传统串行实现的 MCMC 运行时间快至少 343 倍。
Jan, 2023
本文提出了一种基于独立子集的并行 MCMC 新方法 ——Weierstrass 采样器,通过独立子集 MCMC 链的后验绘制组合来逼近完整数据后验绘制,从而提高计算效率,并通过模拟研究表明,Weierstrass 采样器与其他各种用于组合子集生成的 MCMC 链的方法相比具有很强的竞争力。
Dec, 2013
本文介绍了一种新的 EP-MCMC 算法 ——PART, 采用随机划分树来合并子集后验抽取样本,该算法具有分布自由性,易于再抽样和适用于多个比例的优点。理论和实验表明,该算法在大数据集上表现良好。
使用大型语言模型(LLMs)作为抽样算法的元素,可以有效地研究 LLMs 的心理表征。我们通过使用 Direct Sampling 和 Markov chain Monte Carlo(MCMC)基于自适应抽样算法,实现了高效和高性能的心理表征恢复,同时展示了通过 LLMs 进行贝叶斯推断的潜力。
Jan, 2024
通过使用归约化贝叶斯推理方法从难以通过条件概率分布采样的后验分布中提取样本,我们展示了这种分布匹配模型在 LLM 微调中作为最大似然训练和奖励最大化策略优化的有效替代方法,进而实现了对多步骤推理和工具使用任务的数据高效适应。
Oct, 2023