Jun, 2024

强化学习的扩散谱表示

TL;DR扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本,我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法,该方法能够从马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)中提取足够的价值函数表示,从而实现效率的策略优化和实际算法,并明确绕过从扩散模型中采样的困难和推理成本。