Oct, 2023

宪法人工智能的具体原则与普遍原则

TL;DR人类反馈可以防止对话模型中明显有害的话语,但不能自动减轻隐蔽的问题行为,如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法,用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问:模型能否仅通过一份书面原则学习普遍的道德行为?为了测试这一点,我们进行了实验,使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现,最大的对话模型可以从这份简短的宪法中概括出来,产生无害的助手,没有对特定动机(如权力)表示兴趣。因此,一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而,更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明,通用和特定原则都对安全引导人工智能具有价值。