评估生成语言模型在分类任务中的表现：环境与气候变化领域的性能及自我评估能力

Aug, 2024

评估生成语言模型在分类任务中的表现：环境与气候变化领域的性能及自我评估能力

Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain

HTML

PDF

Francesca Grasso, Stefano Locci

TL;DR本研究解决了生成语言模型在环境与气候变化领域分类任务中的表现差距，比较了大型语言模型（LLMs）和小型语言模型（SLM）与BERT基线模型的有效性。研究发现，尽管BERT模型表现优越，生成模型仍显示出显著的性能，并通过自我评估分析揭示了模型在不同任务中的校准能力，为理解生成语言模型在应对生态与气候变化方面的应用提供了新见解。

Abstract

This paper examines the performance of two Large Language Models (LLMs), GPT3.5 and Llama2 and one Small Language Model (SLM) Gemma, across three different Classification Tasks within the climate change (CC) and environmental domain. Employing BERT-based models as a baseline, we compar

发现论文，激发创造

ClimateBert：面向气候相关文本的预训练语言模型

本文研究了预训练语言模型在处理特定领域文本时的缺陷，提出了基于transformer的CLIMATEBERT语言模型，并证明其在气候相关文本处理任务中显著提升了模型效果。

Oct, 2021

ClimaBench: 英文气候变化文本理解基准数据集

本文提出了Climate Change Benchmark（ClimaBench），这是一个用于系统评估CC NLU任务模型性能的基准收集现有不同数据集的基准。我们从公开可用的环境披露中筛选了两个大规模的标记文本分类和问答数据集，并提供了数据分析。

Jan, 2023

MEGA：多语言生成AI的评估

本研究对生成式大型语言模型 (LLMs) 进行了全面的评测，并通过对比同类非自回归模型，探讨了这些模型在多语种 NLP 任务中的性能表现和限制，旨在为未来改进 LLMs 提供方向。

Mar, 2023

利用气候资源增强大型语言模型

本研究基于最新的想法，将大型语言模型视为能够访问多个包含有关组织，机构和公司的最新和精确信息的代理。研究通过生成一个原型代理来演示了该方法的有效性，该代理可以从ClimateWatch检索排放数据并利用Google搜索。通过将这些资源与LLMs相结合，我们的方法克服了不准确语言的局限性，在气候变化这一关键领域提供了更可靠和准确的信息。这项工作为LLMs的未来发展以及它们在需要精确信息的领域中的应用开辟了道路。

Mar, 2023

评估大型语言模型对气候信息的应用

评估大型语言模型对气候变化主题的能力，从科学沟通原则出发，提供一个全面的评估框架，强调LLM生成结果的呈现和认识适当性，揭示LLM在气候传播领域的潜力和局限性。

Oct, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究LLM生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用LLM进行合成数据生成的潜力和局限性。

Oct, 2023

ClimateGPT：AI综合气候变化跨学科研究

该论文介绍了ClimateGPT，这是一种专门用于综合气候变化领域的大型语言模型家族。该模型通过对科学导向的3000亿个标记数据集进行两次自训练，其中第一次自训练中包括42亿个领域特定的标记，并且第二次自训练则在预训练之后通过为气候领域进行调整进行。此外，还对ClimateGPT-7B、13B和70B模型进行了持续预训练，使用了42亿个领域特定的标记数据集来自Llama-2。通过与气候科学家紧密合作创建高质量和人工生成的领域特定数据集，对每个模型进行了指令微调。为了减少虚构数量，我们优化了模型以进行检索增强，并提出了一种层次化检索策略。为了提高模型对非英语使用者的可访问性，我们建议使用级联机器翻译，并证明这种方法在大量语言上可以与本地多语言模型相媲美且更易于扩展。针对气候变化的跨学科特性，我们考虑了不同的研究视角，因此该模型可以在总体答案的基础上产生针对不同视角的深入答案。我们还提出了一套用于评估LLMs的自动气候专用基准测试。在这些基准测试中，ClimateGPT-7B 在截然不同于的70B Chat模型的情况下表现出色，而在一般领域基准测试上的结果没有下降。我们的人工评估证实了基准测试中看到的趋势。所有模型均是使用可再生能源进行训练和评估，并且公开发布。

Jan, 2024

跨语言词汇适应的实证研究：高效生成式LLM推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

从文本到转型：大型语言模型多功能性的全面评述

这项开创性的研究探讨了大型语言模型（LLMs）如生成式预训练变换器（GPT）和双向编码器表示来自变换器（BERT）在技术、金融、医疗保健、教育等各个领域的广泛应用。尽管它们在自然语言处理（NLP）方面已经展现出卓越的能力，但这些LLMs在健身、整体福祉、城市规划、气候建模以及灾害管理等领域尚未得到系统性的研究，本综述除了提供对LLMs在不同领域的广泛应用进行全面分析外，还揭示了LLMs潜力尚未被利用的研究空白和领域。这项研究发现了LLMs在健身福祉、城市规划、气候建模和灾害响应等领域留下印记的创新方式，可以激发未来在这些领域的研究和应用。

Feb, 2024

语言模型环境影响的报告与分析：以常识问答和外部知识为例

本研究解决了大型语言模型（LLMs）在提升性能时忽视环境影响的问题。通过将T5 LLM与外部知识相结合，研究评估了模型训练的环境影响，发现小型模型并不总是可持续的，并且提高训练并不总是能够提升性能。此工作强调在深度学习研究中平衡模型性能与环境效率的重要性。

Jul, 2024