数据生成的序贯决策
本文探讨了利用条件生成模型解决顺序决策问题的可能性,并提出了一种新的 return-conditional diffusion 模型的策略模型,使得模型训练不再需要动态规划算法,成功在一些标准测试上优于现有离线强化学习算法,证明条件生成建模是一种强大的决策制定工具。
Nov, 2022
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
本文提出了一个新颖的概率框架,用于处理具有缺失值的多变量时间序列数据的分类问题。通过训练两个部分的模型,一个用于缺失值填补的深度生成模型,一个用于分类的分类器,能够有效地建模填补缺失值带来的不确定性,并且利用新的正则化技术解决了合并模型可能产生的无意义填补解的问题,通过在真实世界数据上进行广泛实验,证明了我们方法的有效性。
Aug, 2023
本研究提出基于 MDP 的视频生成问题解决方案,用于克服视频长度不可控和时间架构缺陷问题,结合 MoCoGAN 框架实现。实验结果表明该方案能够有效提高视频生成的质量。
Sep, 2019
在一个连续的决策环境中,我们描述了教授模型的理论界限和实用算法。我们聚焦于决策者作为一位决策者而不是一位观察策略的老师优化学习者的之前努力,并提出了几个基于先前定义的监督规程的教学框架,例如教学维度,并将它们扩展到处理在 MDP 中遇到的噪声和输入序列。同时,我们还提供了在这种情况下几个重要的模型类的可学性上的理论界限,并建议一个动态教学的实用算法。
Oct, 2012
本研究通过引入 Markov 决策过程 (MDP) 更为恰当地对推荐系统进行建模,并提出 n-gram 预测模型用于生成初始 MDP 模型以提高预测准确性,该模型在真实数据上进行了评估并应用于基于 MDP 的推荐系统。
Dec, 2012
本研究提出决策栈(Decision Stacks),一种将目标条件策略代理分解为 3 个生成模块的生成框架,其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变,并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果,优于现有方法,并实现了灵活的生成决策制定。
Jun, 2023
通过先前推理的后验估计,训练一种判别模型,即神经网络,来逼近最优提议分布,最终在 Anglican 概率编程系统中呈现一种非参数模型中基于数据驱动提议的实例,并表明数据驱动提议可以显著提高推理性能,从而需要更少粒子进行良好的后验估计。
Dec, 2015