Dec, 2017

一种低成本的伦理塑造方法,用于设计强化学习智能体

TL;DR提出了一种低成本、易于实现的策略,使强化学习代理能够具备行为伦理学能力,基于人类行为的伦理模式,将人类政策与强化学习政策相结合,以实现目标任务,同时避免违反伦理准则。