Jun, 2024

外部模型驱动智能体:增强环境采样的强化学习

TL;DR提出了一种利用兴趣领域和通过兴趣领域进行行为塑造的强化学习算法框架,用于在变化环境中提高外部模型的适应效率。通过测试结果表明,该方法在效率和性能方面优于基准算法。