GPT-4 是一位优秀的数据分析师吗?
本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力,特别关注分析法院裁决以解释法律概念的任务。我们发现,在注释指南的提示下,GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现,虽然性能略有下降,但 GPT-4 可以进行批量预测,从而降低成本。然而,采用连贯思维提示并没有在此任务上明显提高性能。此外,我们演示了如何分析 GPT-4 的预测,以识别和减轻注释指南的缺陷,进而提高模型的性能。最后,我们观察到该模型非常脆弱,因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。
Jun, 2023
通过分析特定资产的 K 线数据,本研究旨在检验 GPT-4 对经典交易理论的理解程度及其在真实交易数据分析中的能力,并探索从 GPT-4 的分析过程中提炼更精确的交易方法,为人类交易员提供宝贵的洞见。
Sep, 2023
利用大型语言模型 (LLMs) 管理结构化数据并增强数据科学流程的兴趣日益增长。尽管具有潜在的好处,但其整合引发了对可靠性和决策方法的重要问题,强调了模型选择过程中包括数据性质、问题类型、性能指标、计算资源、可解释性与准确性、对数据的假设以及伦理考虑等多种因素的重要性。我们的目标是阐明和表达 GPT-4 模型选择推荐背后的因素和假设。我们采用变异性模型描述这些因素,并使用玩具数据集评估模型和已确定的启发式方法的实施。通过将这些结果与其他平台的启发式方法进行对比,我们的目的是确定 GPT-4 方法的有效性和独特性。本研究致力于推进我们对人工智能决策过程的理解,特别是在数据科学中的模型选择领域。我们的努力旨在创建更加透明和可理解的人工智能系统,为数据科学实践贡献更负责任和高效的方法。
Nov, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
本研究探讨了大型语言模型(LLM),特别是 GPT-4,在痴呆症诊断中的潜力和局限,通过对两个真实临床数据集的实验结果表明,尽管 LLMs 具有未来进步的潜力,但目前在诊断准确性方面仍不及传统 AI 工具。
Jun, 2023
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性,证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。
Feb, 2024
大型语言模型在自然语言处理任务中表现出色,我们通过对 Chartered Financial Analyst (CFA) 考试模拟试题的全面评估,考察 ChatGPT 和 GPT-4 在金融分析方面的理解能力,包括零编程、连续思路和少量编程等场景的性能评估和限制,进而估计它们通过 CFA 考试的可能性,并提出改进策略以增强大型语言模型在金融领域的适应性。我们希望这项研究为继续改进金融推理方面的大型语言模型奠定了基础。
Oct, 2023