语言模型环境影响的报告与分析:以常识问答和外部知识为例
本研究基于最新的想法,将大型语言模型视为能够访问多个包含有关组织,机构和公司的最新和精确信息的代理。研究通过生成一个原型代理来演示了该方法的有效性,该代理可以从ClimateWatch检索排放数据并利用Google搜索。通过将这些资源与LLMs相结合,我们的方法克服了不准确语言的局限性,在气候变化这一关键领域提供了更可靠和准确的信息。这项工作为LLMs的未来发展以及它们在需要精确信息的领域中的应用开辟了道路。
Mar, 2023
通过融合IPCC AR6的信息,增强GPT-4,并使用它来回答三个不同的问答场景中的具有挑战性的问题,我们展示了我们的交互式AI原型的能力,并证明了我们的方案的有效性。该方法可很容易地扩展到特定领域中的聊天机器人,实现可靠和准确的信息传递。
Apr, 2023
本文通过对 CHI 会议记录进行提取,评估了 ChatGPT 和 GPT-4 对成本低廉的抽取式问题回答的实际任务的表现,发现 ChatGPT 和 GPT-4 的组合是分析文本语料库的有效低成本手段,对于 HCI 领域的研究人员,我们提供了90多个研究主题中4392个研究挑战的交互式可视化。
Jun, 2023
大型语言模型的碳足迹估算对于新的神经网络的训练前有重要意义,现有研究已报告了训练过程中的碳足迹,然而现有工具在估算碳足迹时存在一些严重限制,为填补这些空白,我们引入了 LLMCarbon,一个端到端的碳足迹预测模型,可以显著提高大型语言模型的碳足迹估算的准确性。
Sep, 2023
评估大型语言模型对气候变化主题的能力,从科学沟通原则出发,提供一个全面的评估框架,强调LLM生成结果的呈现和认识适当性,揭示LLM在气候传播领域的潜力和局限性。
Oct, 2023
我们提出了一个基于开源大型语言模型的轻量级阿拉伯迷你气候GPT,该模型经过细调,并利用矢量嵌入检索机制在推理过程中。我们通过定量和定性评估验证了我们提出的模型在与气候相关的查询中的优越性,并通过人工专家评估显示出对我们模型响应的81.6%偏好。
Dec, 2023
该论文介绍了ClimateGPT,这是一种专门用于综合气候变化领域的大型语言模型家族。该模型通过对科学导向的3000亿个标记数据集进行两次自训练,其中第一次自训练中包括42亿个领域特定的标记,并且第二次自训练则在预训练之后通过为气候领域进行调整进行。此外,还对ClimateGPT-7B、13B和70B模型进行了持续预训练,使用了42亿个领域特定的标记数据集来自Llama-2。通过与气候科学家紧密合作创建高质量和人工生成的领域特定数据集,对每个模型进行了指令微调。为了减少虚构数量,我们优化了模型以进行检索增强,并提出了一种层次化检索策略。为了提高模型对非英语使用者的可访问性,我们建议使用级联机器翻译,并证明这种方法在大量语言上可以与本地多语言模型相媲美且更易于扩展。针对气候变化的跨学科特性,我们考虑了不同的研究视角,因此该模型可以在总体答案的基础上产生针对不同视角的深入答案。我们还提出了一套用于评估LLMs的自动气候专用基准测试。在这些基准测试中,ClimateGPT-7B 在截然不同于的70B Chat模型的情况下表现出色,而在一般领域基准测试上的结果没有下降。我们的人工评估证实了基准测试中看到的趋势。所有模型均是使用可再生能源进行训练和评估,并且公开发布。
Jan, 2024
该研究评估了大规模语言模型的二氧化碳排放,并提出减少碳排放的措施,探讨了硬件选择对二氧化碳排放的影响。基于结果,提出了培训更环境友好的人工智能模型的可能性,并认为可以在不牺牲其鲁棒性和性能的情况下实现。
Apr, 2024
通过NEPAQuAD1.0基准测试评估了大型语言模型的性能,结果显示RAG动力模型在回答问题准确性方面表现明显优于长上下文模型,而不管所选使用的前沿LLM是哪个。进一步分析发现,很多模型在回答封闭式问题方面要比开放式和问题解决型的问题表现更好。
Jul, 2024
本研究解决了生成语言模型在环境与气候变化领域分类任务中的表现差距,比较了大型语言模型(LLMs)和小型语言模型(SLM)与BERT基线模型的有效性。研究发现,尽管BERT模型表现优越,生成模型仍显示出显著的性能,并通过自我评估分析揭示了模型在不同任务中的校准能力,为理解生成语言模型在应对生态与气候变化方面的应用提供了新见解。
Aug, 2024