气候评估中的机器学习模型：LLMs 能准确评估人类专家对气候表述的信心吗？

Nov, 2023

气候评估中的机器学习模型：LLMs 能准确评估人类专家对气候表述的信心吗？

ClimateX: Do LLMs Accurately Assess Human Expert Confidence in Climate Statements?

Romain Lacombe, Kerrie Wu, Eddie Dilworth

TL;DR通过介绍 ClimateX 数据集，使用最新的 IPCC 报告收集的 8094 个气候陈述和与之相关的置信水平，我们展示了最近的大型语言模型（LLMs）可以在气候相关陈述中对人类专家的置信度进行分类，尤其是在少样本学习环境中，但准确率有限（最多为 47％）。在整体上，模型对低和中置信度陈述表现出一致且显著的过度自信。我们强调了这些结果对气候交流、LLMs 评估策略以及在信息检索系统中使用 LLMs 的影响。

Abstract

Evaluating the accuracy of outputs generated by large language models (LLMs) is especially important in the climate science and policy domain. We introduce the expert confidence in Climate Statements (ClimateX) d

large language models climatex dataset expert confidence climate-related statements llms evaluation strategies

发现论文，激发创造

利用气候资源增强大型语言模型

本研究基于最新的想法，将大型语言模型视为能够访问多个包含有关组织，机构和公司的最新和精确信息的代理。研究通过生成一个原型代理来演示了该方法的有效性，该代理可以从 ClimateWatch 检索排放数据并利用 Google 搜索。通过将这些资源与 LLMs 相结合，我们的方法克服了不准确语言的局限性，在气候变化这一关键领域提供了更可靠和准确的信息。这项工作为 LLMs 的未来发展以及它们在需要精确信息的领域中的应用开辟了道路。

Mar, 2023

评估大型语言模型对气候信息的应用

评估大型语言模型对气候变化主题的能力，从科学沟通原则出发，提供一个全面的评估框架，强调 LLM 生成结果的呈现和认识适当性，揭示 LLM 在气候传播领域的潜力和局限性。

Oct, 2023

大型语言模型对气候变化的影响

这篇论文提出了一个自动评估框架，通过综合指标评估大型语言模型在应对气候危机方面的知识，并发现现有大型语言模型的知识在时效性方面存在不足。

Dec, 2023

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

大型语言模型能否捕捉全球变暖的公众舆论？算法忠实度和偏见的实证评估

大型语言模型 (LLMs) 在社会科学研究中通过模拟人类感知和行为的潜力展示了其算法忠实度的概念。本研究通过利用两项具有代表性的全国性气候变化调查评估了 LLMs 的算法忠实度和偏差，并发现 LLMs 能够有效捕捉总统投票行为，但在表示全球变暖观点时遇到挑战，尤其是在没有相关协变量的情况下。GPT-4 在基于人口统计和协变量的条件下表现出更好的性能，然而，在 LLMs 对特定群体的观点估计中存在差异，尤其是在低估黑人对全球变暖的担忧方面。尽管强调了 LLMs 在社会科学研究中的潜力，但这些结果强调了在使用 LLMs 进行调查模拟时，进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用 LLMs 的潜力以及解决其固有限制至关重要。

Nov, 2023

大型语言模型中的气候虚假信息去除

气候变化的误导信息是解决人类面临的最严重威胁之一的关键障碍，本文研究了大型语言模型在气候信息方面的事实准确性。通过使用真假标记的问答数据对语言模型进行微调和评估，比较了开源模型，并评估它们对气候变化问题生成真实回答的能力。我们还研究了故意注入虚假气候信息的模型的可检测性，并发现这种注入可能不会影响模型在其他领域中的回答准确性。此外，我们比较了取消学习算法、微调和检索增强生成（RAG）在事实上对语言模型在气候变化主题上的基础的有效性。我们的评估揭示了取消学习算法对于微妙的概念性主张可能是有效的，尽管之前的研究发现它们在隐私情境下无效。这些见解旨在指导更具事实可靠性的语言模型的发展，并强调了保护语言模型免受误导攻击的额外工作的必要性。

May, 2024

当前估计器的可靠性和稳健性：对 LLMs 的事实置信度

大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Jun, 2024

chatIPCC：基于气候科学的会话式人工智能

通过融合 IPCC AR6 的信息，增强 GPT-4，并使用它来回答三个不同的问答场景中的具有挑战性的问题，我们展示了我们的交互式 AI 原型的能力，并证明了我们的方案的有效性。该方法可很容易地扩展到特定领域中的聊天机器人，实现可靠和准确的信息传递。

Apr, 2023

LLMs 是否能够表达他们的不确定性？LLMs 中置信度引出的经验评估

本研究探讨了不需要模型微调或专有信息的自信度引出方法，通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估，揭示了语言模型的自信度过高以及一些方法的优点。

Jun, 2023

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024