Feb, 2024

透过部分监督强化学习学习后见可观测部分可解释策略

TL;DR通过融合监督学习和无监督学习,部分监督强化学习(PSRL)框架能够提供更可解释的策略和丰富的潜在洞察力,从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。