GPT-4 是一位优秀的数据分析师吗？

May, 2023

GPT-4 是一位优秀的数据分析师吗？

Is GPT-4 a Good Data Analyst?

Liying Cheng, Xingxuan Li, Lidong Bing

TL;DR本文通过一系列的比较研究，设计实验性方案并提出数据分析问题，探究 GPT-4 作为数据分析师的能力，从而证明其在该领域有着与专业人类数据分析师相媲美的表现。

Abstract

As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by

large language models data analysis gpt-4 ai comparative studies

发现论文，激发创造

GPT-4 在需要高度专业领域知识的文本数据分析任务中的支持能力？

本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力，特别关注分析法院裁决以解释法律概念的任务。我们发现，在注释指南的提示下，GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现，虽然性能略有下降，但 GPT-4 可以进行批量预测，从而降低成本。然而，采用连贯思维提示并没有在此任务上明显提高性能。此外，我们演示了如何分析 GPT-4 的预测，以识别和减轻注释指南的缺陷，进而提高模型的性能。最后，我们观察到该模型非常脆弱，因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。

Jun, 2023

GPT4 是一个优秀的交易者吗？

通过分析特定资产的 K 线数据，本研究旨在检验 GPT-4 对经典交易理论的理解程度及其在真实交易数据分析中的能力，并探索从 GPT-4 的分析过程中提炼更精确的交易方法，为人类交易员提供宝贵的洞见。

Sep, 2023

数据科学中的 GPT：模型选择的实践探索

利用大型语言模型 (LLMs) 管理结构化数据并增强数据科学流程的兴趣日益增长。尽管具有潜在的好处，但其整合引发了对可靠性和决策方法的重要问题，强调了模型选择过程中包括数据性质、问题类型、性能指标、计算资源、可解释性与准确性、对数据的假设以及伦理考虑等多种因素的重要性。我们的目标是阐明和表达 GPT-4 模型选择推荐背后的因素和假设。我们采用变异性模型描述这些因素，并使用玩具数据集评估模型和已确定的启发式方法的实施。通过将这些结果与其他平台的启发式方法进行对比，我们的目的是确定 GPT-4 方法的有效性和独特性。本研究致力于推进我们对人工智能决策过程的理解，特别是在数据科学中的模型选择领域。我们的努力旨在创建更加透明和可理解的人工智能系统，为数据科学实践贡献更负责任和高效的方法。

Nov, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Oct, 2023

LLM （如 GPT-4）是否能在痴呆症诊断中胜过传统人工智能工具？也许，但今天还没有

本研究探讨了大型语言模型（LLM），特别是 GPT-4，在痴呆症诊断中的潜力和局限，通过对两个真实临床数据集的实验结果表明，尽管 LLMs 具有未来进步的潜力，但目前在诊断准确性方面仍不及传统 AI 工具。

Jun, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

基于算法问题的 GPT-4 评测：对提示策略的系统评估

GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性，证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。

Feb, 2024

GPT 模型能否成为金融分析师？对 ChatGPT 和 GPT-4 在模拟 CFA 考试中的评估

大型语言模型在自然语言处理任务中表现出色，我们通过对 Chartered Financial Analyst (CFA) 考试模拟试题的全面评估，考察 ChatGPT 和 GPT-4 在金融分析方面的理解能力，包括零编程、连续思路和少量编程等场景的性能评估和限制，进而估计它们通过 CFA 考试的可能性，并提出改进策略以增强大型语言模型在金融领域的适应性。我们希望这项研究为继续改进金融推理方面的大型语言模型奠定了基础。

Oct, 2023