May, 2025

强化学习中的价值是否存在?

TL;DR本研究探讨了强化学习模型中行动价值的表示问题,指出政策梯度方法并不真正“无价值”,因为它们在学习过程中仍然依赖于价值的概念。我们建议将辩论焦点转向对基础建模假设的批判性评价,尤其是在松弛标准假设时,重新审视价值的概念,这对实验研究极为重要。