Sep, 2023

基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习

TL;DR提出了一种利用 Wasserstein 距离的分布鲁棒优化方法,用于解决环境不匹配的问题,并提供了理论分析和实证验证。