May, 2024

AI对准逆悖论

TL;DRAI对齐存在悖论:我们越好地将AI模型与我们的价值观相一致,就越容易让对手使模型不一致。为确保人类福祉,必须确保广泛研究者共同意识到AI对齐悖论,并努力寻求突破途径。