Jan, 2024

多环境中基于好奇心和熵驱动的无监督强化学习

TL;DR使用 alpha-MEPOL 方法,在多个环境中处理无监督强化学习,通过对整个环境类的交互进行无任务探索策略的预训练,再使用监督微调该策略来处理不同任务,通过样本轨迹采样、动态 alpha、更高的 KL 散度阈值、基于好奇心的探索以及好奇心的 alpha 百分位数采样等改进方法,提高了性能。