Aug, 2023

不平衡分类和强化学习探索的范围损失

TL;DR我们找到了强化学习问题和监督分类问题之间的等价性,并将强化学习中的探索和利用权衡问题等同于监督分类中的数据集不平衡问题,并发现它们在解决方法上的相似之处。根据我们对这些问题的分析,我们得出了一种新的强化学习和监督分类的损失函数 ——Scope Loss。Scope Loss 可以调整梯度,以防止由于过度利用和数据集不平衡而导致的性能损失,而无需任何调整。我们在一系列基准强化学习任务和一个倾斜的分类数据集上测试了 Scope Loss,并证明它优于其他损失函数。