Mar, 2024

解释性机器人行走的蒸馏强化学习策略:梯度提升机和符号回归

TL;DR通过采用梯度提升机、可解释性提升机和符号回归的方法,将神经强化学习策略转化为透明的 “玻璃盒” 模型,用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。