May, 2023

在线优化的具有记忆成本的强化学习

TL;DR提出一种新的 Expert-Robustified Learning (ERL) 方法,即利用专家在线算法进行投影运算实现对机器学习行为(即 Online Optimization with Memory Costs)的强度鲁棒性,并通过递归神经网络模型进行传递专家在线算法的平均性能训练,从而在内存成本上提高行为竞争性能和稳健性。