May, 2012

通过最小化分布健壮边界来近似动态规划

TL;DR本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划,通过最小化对策略损失的悲观界限来解决维度灾难,将 ADP 转化为优化问题,提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限,并在基准问题上展示了良好的性能表现。