Aug, 2024

贝叶斯预言者能否防止智能体造成的伤害?

TL;DR本研究解决了如何设计能够满足概率安全保障的机器学习基础的AI系统这一问题。通过评估基于真实但未知假设的安全违反概率边界,我们提出了一种创新的方法,通过最大化贝叶斯后验来寻找谨慎而合理的假设,从而拒绝潜在的危险行动。研究的主要发现为AI系统提供了理论基础,以实现实用的安全防护措施。