使用大型语言模型回答农业考试：GPT-4 作为农艺师助手？

Oct, 2023

使用大型语言模型回答农业考试：GPT-4 作为农艺师助手？

GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models

Bruno Silva, Leonardo Nunes, Roberto Estevão, Ranveer Chandra

TL;DRGPT-4 在农业相关问题上表现出色，可通过考试获得农学家的认证，为农民和农业专业人员提供有价值的洞见。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding across various domains, including healthcare and finance. For some tasks, LLMs achieve similar or better performance than trained human beings, therefore it is reasonable to employ

large language models agriculture llm evaluation rag gpt-4

发现论文，激发创造

GPT-4 作为评估器：在农业中评估大型语言模型的农害管理

通过对农业领域（特别是害虫管理）中人工智能大型语言模型（LLMs）生成的害虫管理建议内容进行评估，证明了人工智能大型语言模型在农业中的可行性，并且通过创新方法使用 GPT-4 作为评估器，在相关领域专家系统的基础上，综合评分，显示出 GPT-3.4 和 GPT-4 在大多数评估类别中优于 FLAN 模型，验证了人工智能大型语言模型在提供农业害虫管理建议方面的有效性和准确性（准确率为 72%）。

Mar, 2024

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023

评估 GPT-3.5 和 GPT-4 模型在巴西大学入学考试中的表现

本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试，旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳，精度达到了 87％。

Mar, 2023

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

评估领先的大型语言模型在推理生物学问题中的潜力

该研究评估了领先的大型语言模型（LLMs），包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova 对概念生物学问题的回答能力。结果表明，GPT-4 在逻辑推理方面表现出色，并具备数据分析、假设生成和知识整合等能力，从而有望在生物学研究中发挥作用，但还需要进一步的发展和验证。

Nov, 2023

GPT-4 通过 297 个波兰书面理事会认证考试

通过在 297 个考试中测试 Generative Pretrained Transformer（GPT）模型的性能，研究结果显示 GPT-3.5 没有通过任何考试，而最新的模型 gpt-4-0125 成功通过了 222 个考试（75%）。此研究对于波兰的大型语言模型在医学考试中的性能评估展示了巨大的进展，并展望了将 AI 应用于医疗领域的前景，例如开发基于 AI 的医疗助手来提高医疗服务的效率和准确性。

Apr, 2024

GPT-4 作为研究人员和计算软件之间的接口：提高可用性和可重复性

GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题，通过生成正确的输入文件和详细的计算任务描述，减少研究者常规任务、加速新用户培训并提高结果可复现性。

Oct, 2023

巨型语言模型（GPT-4）的进步：通过高等教育编程课程的考核不再成为难题

该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果，这表明自然语言处理技术在编程教育类中有很大的潜力，并且给程序设计教育提出了新的问题。

Jun, 2023

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023