Jan, 2024

通过自动学习组合子任务实现高效样本强化学习

TL;DR自动结构化奖励函数以提高样本利用率,并在稀疏奖励环境中显著优于现有技术基线。