May, 2023

人类控制:定义与算法

TL;DR该论文提出了一种人类如何控制人工智能系统的方法——可纠正性,即要求智能体遵循人类监督者的指示,而不会对其进行不适当的影响。它还定义了一种可纠正行为的变体称为关机教示性,并表明它意味着适当的关机行为,保留人类自主权和避免用户危害。研究了三个先前提出的人类控制算法和一个新算法的相关概念。