数据生成的序贯决策

NIPSJun, 2015

Data Generation as Sequential Decision Making

Philip Bachman, Doina Precup

TL;DR本文探讨了一种基于顺序决策的生成模型及其在数据填充方面的应用，利用神经网络和引导策略搜索算法训练模型，在多个数据集上取得了有效结果。

Abstract

We connect a broad class of generative models through their shared reliance on sequential decision making. Motivated by this view, we develop extensions to an existing model, and then explore the idea further in

generative models sequential decision making data imputation neural networks guided policy search

发现论文，激发创造

条件生成建模是否足以支持决策制定？

本文探讨了利用条件生成模型解决顺序决策问题的可能性，并提出了一种新的 return-conditional diffusion 模型的策略模型，使得模型训练不再需要动态规划算法，成功在一些标准测试上优于现有离线强化学习算法，证明条件生成建模是一种强大的决策制定工具。

Nov, 2022

从只包含状态序列中学习非 Markov 决策制定

本文研究了一种在非 Markov 决策过程下进行深度生成建模的模型，在无法观察到动作的情况下进行模仿学习和决策制定。

Jun, 2023

对比模仿生成时间序列

一种结合自回归模型和对抗模型的生成框架，通过训练一个本地的过渡策略和一个全局的能量模型来生成时间序列数据，以模拟其连续行为，并在实证分析中验证其性能。

Nov, 2023

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

时间序列分类中的概率性数据补全

本文提出了一个新颖的概率框架，用于处理具有缺失值的多变量时间序列数据的分类问题。通过训练两个部分的模型，一个用于缺失值填补的深度生成模型，一个用于分类的分类器，能够有效地建模填补缺失值带来的不确定性，并且利用新的正则化技术解决了合并模型可能产生的无意义填补解的问题，通过在真实世界数据上进行广泛实验，证明了我们方法的有效性。

Aug, 2023

视频生成的马尔可夫决策过程

本研究提出基于 MDP 的视频生成问题解决方案，用于克服视频长度不可控和时间架构缺陷问题，结合 MoCoGAN 框架实现。实验结果表明该方案能够有效提高视频生成的质量。

Sep, 2019

序贯决策环境中的动态教学

在一个连续的决策环境中，我们描述了教授模型的理论界限和实用算法。我们聚焦于决策者作为一位决策者而不是一位观察策略的老师优化学习者的之前努力，并提出了几个基于先前定义的监督规程的教学框架，例如教学维度，并将它们扩展到处理在 MDP 中遇到的噪声和输入序列。同时，我们还提供了在这种情况下几个重要的模型类的可学性上的理论界限，并建议一个动态教学的实用算法。

Oct, 2012

基于 MDP 的推荐系统

本研究通过引入 Markov 决策过程 (MDP) 更为恰当地对推荐系统进行建模，并提出 n-gram 预测模型用于生成初始 MDP 模型以提高预测准确性，该模型在真实数据上进行了评估并应用于基于 MDP 的推荐系统。

Dec, 2012

决策堆栈：基于模块化生成模型的灵活强化学习

本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Jun, 2023

使用数据驱动的顺序蒙特卡罗方法在概率编程中

通过先前推理的后验估计，训练一种判别模型，即神经网络，来逼近最优提议分布，最终在 Anglican 概率编程系统中呈现一种非参数模型中基于数据驱动提议的实例，并表明数据驱动提议可以显著提高推理性能，从而需要更少粒子进行良好的后验估计。

Dec, 2015