大型语言模型中的气候虚假信息去除

May, 2024

大型语言模型中的气候虚假信息去除

Unlearning Climate Misinformation in Large Language Models

Michael Fore, Simranjit Singh, Chaehong Lee, Amritanshu Pandey, Antonios Anastasopoulos...

TL;DR气候变化的误导信息是解决人类面临的最严重威胁之一的关键障碍，本文研究了大型语言模型在气候信息方面的事实准确性。通过使用真假标记的问答数据对语言模型进行微调和评估，比较了开源模型，并评估它们对气候变化问题生成真实回答的能力。我们还研究了故意注入虚假气候信息的模型的可检测性，并发现这种注入可能不会影响模型在其他领域中的回答准确性。此外，我们比较了取消学习算法、微调和检索增强生成（RAG）在事实上对语言模型在气候变化主题上的基础的有效性。我们的评估揭示了取消学习算法对于微妙的概念性主张可能是有效的，尽管之前的研究发现它们在隐私情境下无效。这些见解旨在指导更具事实可靠性的语言模型的发展，并强调了保护语言模型免受误导攻击的额外工作的必要性。

Abstract

misinformation regarding climate change is a key roadblock in addressing one of the most serious threats to humanity. This paper investigates factual accuracy in large →

misinformation climate change language models factual accuracy unlearning algorithms

发现论文，激发创造

大型语言模型对误导性污染的风险

本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

May, 2023

大型语言模型对气候变化的影响

这篇论文提出了一个自动评估框架，通过综合指标评估大型语言模型在应对气候危机方面的知识，并发现现有大型语言模型的知识在时效性方面存在不足。

Dec, 2023

利用气候资源增强大型语言模型

本研究基于最新的想法，将大型语言模型视为能够访问多个包含有关组织，机构和公司的最新和精确信息的代理。研究通过生成一个原型代理来演示了该方法的有效性，该代理可以从 ClimateWatch 检索排放数据并利用 Google 搜索。通过将这些资源与 LLMs 相结合，我们的方法克服了不准确语言的局限性，在气候变化这一关键领域提供了更可靠和准确的信息。这项工作为 LLMs 的未来发展以及它们在需要精确信息的领域中的应用开辟了道路。

Mar, 2023

评估大型语言模型对气候信息的应用

评估大型语言模型对气候变化主题的能力，从科学沟通原则出发，提供一个全面的评估框架，强调 LLM 生成结果的呈现和认识适当性，揭示 LLM 在气候传播领域的潜力和局限性。

Oct, 2023

大型语言模型能否捕捉全球变暖的公众舆论？算法忠实度和偏见的实证评估

大型语言模型 (LLMs) 在社会科学研究中通过模拟人类感知和行为的潜力展示了其算法忠实度的概念。本研究通过利用两项具有代表性的全国性气候变化调查评估了 LLMs 的算法忠实度和偏差，并发现 LLMs 能够有效捕捉总统投票行为，但在表示全球变暖观点时遇到挑战，尤其是在没有相关协变量的情况下。GPT-4 在基于人口统计和协变量的条件下表现出更好的性能，然而，在 LLMs 对特定群体的观点估计中存在差异，尤其是在低估黑人对全球变暖的担忧方面。尽管强调了 LLMs 在社会科学研究中的潜力，但这些结果强调了在使用 LLMs 进行调查模拟时，进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用 LLMs 的潜力以及解决其固有限制至关重要。

Nov, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

地球是平的吗？揭示大型语言模型中的事实错误

我们引入了一种名为 FactChecker 的新型自动化测试框架，通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例，以及使用匹配策略评估大型语言模型的响应准确性，从而揭示了大型语言模型中的事实错误，并展示了测试用例对提高模型的事实准确性的有效性。

Jan, 2024

大型语言模型能否检测科学新闻报道中的错误信息？

使用大型语言模型检测科学报道中的虚假信息，针对缺乏明确标签的情况，提出了多种基于大型语言模型的基准架构和提示方法，包括零样本、少样本和连贯思维提示等。

Feb, 2024

虚假信息检测中的不确定性解决

使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性，并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询，相比基准方法，我们的方法提高了用户可回答的问题的比例 38 个百分点，宏观 F1 分类性能提高了 10 个百分点以上。因此，该方法可能成为未来对抗虚假信息的有价值组成部分。

Jan, 2024

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024