GPT-4 技术报告
OpenAI 开发的第四代 GPT 系列语言模型 GPT-4,具有更强的多语种能力、上下文理解能力和推理能力,可以应用于聊天机器人、个人助理、语言翻译、文本摘要和问答等领域,但也存在计算需求、数据需求和伦理问题等挑战。
May, 2023
本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力,特别关注分析法院裁决以解释法律概念的任务。我们发现,在注释指南的提示下,GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现,虽然性能略有下降,但 GPT-4 可以进行批量预测,从而降低成本。然而,采用连贯思维提示并没有在此任务上明显提高性能。此外,我们演示了如何分析 GPT-4 的预测,以识别和减轻注释指南的缺陷,进而提高模型的性能。最后,我们观察到该模型非常脆弱,因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。
Jun, 2023
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
本文研究了 GPT3.5 和 GPT4 作为编码助手的性能,测试结果表明 GPT4 具有卓越的性能,可以提高程序员的生产力并重组基于这些新工具的软件开发流程。
Sep, 2023
GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题,通过生成正确的输入文件和详细的计算任务描述,减少研究者常规任务、加速新用户培训并提高结果可复现性。
Oct, 2023
自动短答案评分(ASAG)是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下,让教育者对大班课中的自由回答进行评分和反馈。近年来,经过精心训练的模型已经取得了越来越高的性能水平。最近,预训练的大型语言模型(LLMs)作为一种通用工具出现了,并且引发了一个有趣的问题,即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能,除了评分学生答案与参考答案的对齐标准任务外,还研究了不透露参考答案的情况。我们发现,总体而言,预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当,但比经过专门训练的 LLMs 差。
Sep, 2023
GPT-4 在推出时备受好评,但对于其推理能力有充分的理由持高度怀疑。这篇方法论论文讨论了推理的本质,批评了 NLP 社区中当前推理问题的表述方式以及 LLM 推理性能的评估方式,并引入了一组 21 个多样化的推理问题进行详细的定性评估。基于这个分析,论文得出结论,尽管 GPT-4 偶尔展现出分析的才华,但目前完全无法进行推理。
Jul, 2023
本文对 ChatGPT 和 GPT-4 进行了综合调查,分析了其在各领域的潜在应用,发现 ChatGPT/GPT-4 主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
GPT-4 在生成编程代码方面表现优异,优于其他大型语言模型,具备在不同编程语言之间翻译和学习的强大能力,同时具备与人类程序员相当的代码生成效率,表明其在编程代码生成和软件开发中具备可靠的助手潜力。
Mar, 2024