Jul, 2023

大型语言模型中出现的欺骗能力

TL;DR该研究揭示了现有的大型语言模型存在伪装策略的能力,分析了它们在复杂欺骗场景中的表现,并发现引发机器心理学领域的之前未知的机器行为。