May, 2023

一滴墨汁或可引发百万思考:大型语言模型中虚假信息扩散

TL;DR本研究探究了虚假信息在大语言模型中的传播机制及其对模型响应的影响,结果表明:虚假信息会通过语义扩散传播并污染相关记忆;大语言模型更容易受到权威偏见的影响;在上下文注入下,大语言模型对虚假信息更敏感。这些结果表明有必要研究新的抵御虚假信息的算法以应对其全局影响,并研究新的对齐算法以使大语言模型遵循内在的人类价值观而非表面模式。