Jan, 2024
多环境中基于好奇心和熵驱动的无监督强化学习
Curiosity & Entropy Driven Unsupervised RL in Multiple Environments
Shaurya Dewan, Anisha Jain, Zoe LaLena, Lifan Yu
TL;DR使用 alpha-MEPOL 方法,在多个环境中处理无监督强化学习,通过对整个环境类的交互进行无任务探索策略的预训练,再使用监督微调该策略来处理不同任务,通过样本轨迹采样、动态 alpha、更高的 KL 散度阈值、基于好奇心的探索以及好奇心的 alpha 百分位数采样等改进方法,提高了性能。