Feb, 2024

超越提示脆弱性:评估 LLMs 中政治世界观的可靠性和一致性

TL;DR通过一系列的测试,我们评估了大型语言模型(LLMs)对政治表态的可靠性和一致性,结果表明 LLMs 的态度可靠性随参数数量的增加而增加,较大的模型整体上更偏向左翼政党,但在各项政策方案中存在差异。它们对环境保护、社会福利、法律和秩序表现出(左翼)积极的态度,但对外交政策、移民和经济没有一致的偏好。