Feb, 2022

奖励不足够:我们能否将 AI 从强化学习范式中解放出来?

TL;DR本文挑战了Silver等人提出的奖励最大化假设,并指出强化学习范式虽然在某些实际应用中有用,但是它不是智能的完整框架,因为智能行为的复杂性不仅仅是奖励最大化的二阶复杂性。该事实对于可实际使用的智能、安全和强大的人工智能代理的发展具有深远的影响。