BriefGPT.xyz
Ask
alpha
关键词
partially observed markov decision processes
搜索结果 - 2
嵌入式控制部分观测系统:带有可证明采样效率的表示学习
提出了一种名为 Embed to Control (ETC) 的强化学习算法,通过学习观察和状态历史的最小但足够的表示来解决部分观测 Markov 决策过程(POMDP)中的样本复杂性问题,实现了表示学习和策略优化的桥梁,具有高效的样本复杂
→
PDF
2 years ago
POPCORN:部分观察预测约束强化学习
本文提出了一种新的优化目标,以批处理离线策略为特点,即使在某些观测对于规划无关紧要时,该方法也能产生高性能策略和高质量的生成模型,并将其应用于合成样例和一个具有挑战性的医疗决策问题。
PDF
4 years ago
Prev
Next