Feb, 2024

大语言模型对意识形态操控的易感性研究

TL;DR大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识,尤为显著的是,LLMs 展示了吸收一个主题的意识形态,并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险,这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。