Feb, 2024

ICED:通过上下文环境设计在强化学习中实现零 - shot 转移

TL;DR通过对深度强化学习的自主代理进行研究,发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息,提出了一种新的理论解释适应性采样策略的合理性;另外,引入了上下文环境设计(ICED)方法,通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成,减少数据偏差,并在零样本泛化性上取得显著改进。