May, 2024

大型语言模型中的气候虚假信息去除

TL;DR气候变化的误导信息是解决人类面临的最严重威胁之一的关键障碍,本文研究了大型语言模型在气候信息方面的事实准确性。通过使用真假标记的问答数据对语言模型进行微调和评估,比较了开源模型,并评估它们对气候变化问题生成真实回答的能力。我们还研究了故意注入虚假气候信息的模型的可检测性,并发现这种注入可能不会影响模型在其他领域中的回答准确性。此外,我们比较了取消学习算法、微调和检索增强生成(RAG)在事实上对语言模型在气候变化主题上的基础的有效性。我们的评估揭示了取消学习算法对于微妙的概念性主张可能是有效的,尽管之前的研究发现它们在隐私情境下无效。这些见解旨在指导更具事实可靠性的语言模型的发展,并强调了保护语言模型免受误导攻击的额外工作的必要性。