Jul, 2023

非稳态环境下具有昂贵特征的在线学习

TL;DR在顺序决策问题中,我们扩展上下文奖励设置并允许智能体观察功能状态的子集,以同时最大化长期平均收益并在有限时间内保证减少。