对物理 GRE 上 LLM 性能的测试:一些观察
本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试,将四个 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4),巴德(LaMDA)和 BLOOMZ)与医学物理学家和非专业人员进行了评估。ChatGPT(GPT-4)平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT(GPT-4)在被激发先解释,然后再回答的情况下表现得更好。ChatGPT(GPT-4)展示了出人意料的准确性,表明了一种新颖的推理能力,但存在固有属性以及无法通过大多数投票进一步提高得分。
Apr, 2023
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
大型语言模型(LLMs)在理解和生成任务方面取得了显著的表现,但其在偏见、上下文理解和对提示的敏感性方面存在限制,因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验,深入研究了 LLMs 在业务流程中的实用性和准备性。研究结果对希望利用生成式人工智能的组织具有重大影响,并为未来的研究方向提供了宝贵的见解。据我们所知,这是第一项将 LLMs 应用于核心业务运营和挑战的定量研究。
Jun, 2024
该研究介绍了一项评估七种主要大型语言模型(LLMs)在商业教育领域的性能的基准测试,同时研究还证明了大多数 LLMs 在 GMAT 考试中的出色表现,特别是 GPT-4 Turbo 超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力,并强调了在发展和应用人工智能时的一些挑战和需求。
Jan, 2024
最近大规模语言模型(LLMs)的突破性进展在自然语言理解和生成方面带来了革命性的变化,引发了对将这些技术应用于科学文献分析这一细分领域的兴趣激增。然而,现有的基准不足以充分评估 LLM 在科学领域,尤其是在涉及复杂理解和多模态数据的情景中的能力。本文介绍了 SciAssess,这是一个专门用于深入分析科学文献的基准,旨在对 LLM 的效能进行全面评估。SciAssess 专注于评估 LLM 在科学背景下的记忆、理解和分析能力。它包括来自不同科学领域的代表性任务,例如普通化学、有机材料和合金材料。严格的质量控制措施确保了其在正确性、匿名性和版权合规性方面的可靠性。SciAssess 评估了领先的 LLM,包括 GPT-4、GPT-3.5-turbo 和 Gemini,并确定了它们的优势和改进的领域,支持 LLM 在科学文献分析领域的持续发展。SciAssess 及其资源可在此 https URL 上获得,为推进 LLM 在科学文献分析中的能力提供了一个有价值的工具。
Mar, 2024
这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果,发现当前的大型语言模型在不同计算机科学领域表现出色,但由于数学计算方面的限制,即使是 GPT-4.0 也无法通过该课程。
Jul, 2023
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势,进一步探索其合作潜力。
Jun, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023