Sep, 2024

从稳态到资源共享:生物和经济兼容的多目标多智能体AI安全基准

TL;DR本研究解决了目前AI安全领域中对人类价值观的自动化经验测试缺乏的问题。通过引入稳态和资源共享等生物和经济动机主题,本文展示了现代强化学习文献中在安全性方面被忽视的多个目标和平衡的必要性。研究成果表明,当前主流AI安全讨论存在显著不足,需进一步完善相关基准。