May, 2024

基于 UCB 驱动的多目标增强学习的效用函数搜索

TL;DR基于多目标强化学习的分解方法,通过使用多个效用函数将多目标问题分解为单目标问题,采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量,以最大化 resulting Pareto front 的超体积。