ICLRJun, 2024

行为蒸馏

TL;DR行为压缩是一种旨在将大型数据集压缩为少数合成示例的方法,以用作在训练新模型时可直接替换使用。本文提出行为压缩的概念,并介绍了 HaDES 方法,它可以发现仅需包含四个状态 - 动作对的数据集,通过监督学习训练出在连续控制任务中表现竞争水平的智能体,同时 HaDES 在神经进化强化学习领域表现出显著改进, 并在标准的监督数据集压缩任务上取得了最先进的结果,最后,该方法的可视化结果可提供人类可解释的任务洞见。