ICMLMay, 2024

有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度

TL;DR该研究论文介绍了一种创新的演员 - 评论家算法 MOAC,用于解决多目标强化学习问题,并提供了有限时间帕累托平稳收敛和样本复杂度的分析,通过在冲突的奖励信号之间进行权衡来找到策略,解决了应用中普遍存在的多个潜在冲突目标的问题,并通过实验证实了该方法的有效性。