Jul, 2024

不确定性的脆弱性:对大规模语言模型中不确定性的操控

TL;DR本研究探索了Large Language Models(LLMs)不确定性评估的脆弱性,并证明了攻击者可以通过植入后门来改变模型的不确定性,而不影响最终输出结果。实验结果表明,该攻击方法能够有效地破坏模型的自我评估可靠性,并对模型的可靠性提出了重要威胁。