大型语言模型是良好的统计学家吗？

Jun, 2024

大型语言模型是良好的统计学家吗？

Are Large Language Models Good Statisticians?

Yizhang Zhu, Shiyin Du, Boyan Li, Yuyu Luo, Nan Tang

TL;DRLLMs 在处理复杂统计任务方面存在显著改进空间，引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现，并突显 LLMs 和人类在错误类型上的差异，表明结合 LLMs 和人类专业知识有助于相互补充优势，进一步探索其合作潜力。

Abstract

large language models (LLMs) have demonstrated impressive capabilities across a range of scientific tasks including mathematics, physics, and chemistry. Despite their successes, the effectiveness of LLMs in handling complex statistical tasks remains systematically under-explored. To br

large language models statistical analysis benchmark hypothesis testing collaborative potential

发现论文，激发创造

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

大型语言模型是超人级化学家吗？

通过 ChemBench 等评估框架，我们发现大型语言模型在化学科学中展示出卓越的能力，但仍需进一步研究以提高其安全性和实用性。

Apr, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

数学家的大型语言模型

大型语言模型（LLMs）如 ChatGPT 因其通用的语言理解能力而备受关注，尤其是它们生成高质量文本或计算机代码的能力。在本文中，我们讨论它们在何种程度上可以辅助数学专家，并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究，我们概述了最佳实践和潜在问题，并报告了语言模型的数学能力。最后，我们揭示了 LLMs 改变数学家工作方式的潜力。

Dec, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型符合人们的期待吗？测量人类的普适能力函数

人们使用大型语言模型的目的，以及这些模型的部署决策、人类泛化功能的一致性，以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。

Jun, 2024

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024