Oct, 2023

自我激励模仿学习:噪声演示的优化

TL;DR自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法,利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变,并利用噪声信息预测当前策略和演示者之间的扩散步骤,进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示,并提供了其理论基础。通过对MuJoCo任务的实证评估,我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略,并有效地过滤掉低于当前策略的演示。