May, 2024

AI 对准逆悖论

TL;DRAI 对齐存在悖论:我们越好地将 AI 模型与我们的价值观相一致,就越容易让对手使模型不一致。为确保人类福祉,必须确保广泛研究者共同意识到 AI 对齐悖论,并努力寻求突破途径。