Apr, 2024

推断行为特定的上下文在强化学习中提升零样本泛化能力

TL;DR本文中,我们在强化学习中解决了零样本泛化的挑战,通过理解和利用环境的上下文线索,将上下文表示的学习与策略学习相结合,提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力,在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文,我们的方法获得了特定行为的上下文表示,在未知环境中实现了适应,并在实现跨不同真实世界任务的强化学习系统上取得了进展。