Jun, 2024

离线强化学习中的值函数估计是否能与分类器插件一起联动?

TL;DR通过大规模实验和不同算法的多样性任务,我们的研究旨在实证地调查这种替代方法对性能的影响,结果显示在某些任务中,这种改变可以实现超过现有解决方案的卓越性能,而在其他任务中保持相当的性能水平;然而对于其他算法,此修改可能导致性能的显著下降。这些发现对进一步应用于研究和实际任务的分类方法至关重要。