May, 2024

数据高效的通用值函数评估的自适应探索

TL;DRGVFExplorer 通过使用方差估计和行为策略更新,实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。