Apr, 2024

分布式健壮强化学习与交互式数据采集:基本难题与近似最优算法

TL;DR通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。