Oct, 2023

通过自适应上下文感知策略在强化学习中实现动态概括

TL;DR我们研究了如何将上下文信息引入行为学习以提高泛化性能,并引入了一个神经网络架构 —— 决策适配器,该架构生成适配器模块的权重,并根据上下文信息调整智能体的行为。实验证明,与以往方法相比,决策适配器在几个环境中表现出更好的泛化性能,并且相对于一些替代方法,决策适配器对于无关变量的干扰更具鲁棒性。