Apr, 2025

人工智能行为中的杰基尔与海德临界点

TL;DR本研究解决了当前人们对大型语言模型(LLM)输出可靠性缺乏科学预测的问题,提出了一种基于基本原理的确切公式,阐明了当注意力分散到极限时,LLM可能发生的“杰基尔与海德”临界点。该公式提供量化预测,帮助政策制定者和公众有效讨论人工智能的更广泛应用和风险,促进了对“应该对我的LLM礼貌吗”这类问题的清晰理解。