Dec, 2022

解决奖励假设

TL;DR该研究从回报假说出发,探讨了目标和目的的最大化与累积奖励信号、期望价值等方面的关系,并指出了假说成立的隐含要求。