Jun, 2023

学习防止欺诈

TL;DR通过实验,我们证明了在 RL 环境下利润最大化的代理商可以遵守法律、规定和人类行为期望,其中引入了识别器作为规范指南,以塑造代理商的感知奖励并改变其选择的行动,从而避免了欺诈行为。