Sep, 2023

降低深度强化学习模型中的不良行为

TL;DR提出一种基于决策树分类器的框架,用于在 DRL 软件中大幅减少不良行为并提供工程师可理解的描述,且仅略微增加训练时间及对性能的影响。