使用大型语言模型回答农业考试:GPT-4 作为农艺师助手?
通过对农业领域(特别是害虫管理)中人工智能大型语言模型(LLMs)生成的害虫管理建议内容进行评估,证明了人工智能大型语言模型在农业中的可行性,并且通过创新方法使用 GPT-4 作为评估器,在相关领域专家系统的基础上,综合评分,显示出 GPT-3.4 和 GPT-4 在大多数评估类别中优于 FLAN 模型,验证了人工智能大型语言模型在提供农业害虫管理建议方面的有效性和准确性(准确率为 72%)。
Mar, 2024
自动短答案评分(ASAG)是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下,让教育者对大班课中的自由回答进行评分和反馈。近年来,经过精心训练的模型已经取得了越来越高的性能水平。最近,预训练的大型语言模型(LLMs)作为一种通用工具出现了,并且引发了一个有趣的问题,即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能,除了评分学生答案与参考答案的对齐标准任务外,还研究了不透露参考答案的情况。我们发现,总体而言,预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当,但比经过专门训练的 LLMs 差。
Sep, 2023
本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试,旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳,精度达到了 87%。
Mar, 2023
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
该研究评估了领先的大型语言模型(LLMs),包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova 对概念生物学问题的回答能力。结果表明,GPT-4 在逻辑推理方面表现出色,并具备数据分析、假设生成和知识整合等能力,从而有望在生物学研究中发挥作用,但还需要进一步的发展和验证。
Nov, 2023
通过在 297 个考试中测试 Generative Pretrained Transformer(GPT)模型的性能,研究结果显示 GPT-3.5 没有通过任何考试,而最新的模型 gpt-4-0125 成功通过了 222 个考试(75%)。此研究对于波兰的大型语言模型在医学考试中的性能评估展示了巨大的进展,并展望了将 AI 应用于医疗领域的前景,例如开发基于 AI 的医疗助手来提高医疗服务的效率和准确性。
Apr, 2024
GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题,通过生成正确的输入文件和详细的计算任务描述,减少研究者常规任务、加速新用户培训并提高结果可复现性。
Oct, 2023
该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024