GPT-4 是否能运行 DOOM？

Mar, 2024

Will GPT-4 Run DOOM?

Adrian de Wynter

TL;DRGPT-4 能够运行和玩第一人称射击游戏《毁灭战士》（Doom），无需训练而依靠自身的推理和观察能力，但仍需要进一步研究才能与传统强化学习方法相媲美。希望通过此研究拓展基于大型语言模型的智能代理在视频游戏中的应用，并讨论了相关的伦理问题。

Abstract

We show that gpt-4's reasoning and planning capabilities extend to the 1993 first-person shooter Doom. This large language model (LLM) is

gpt-4 reasoning planning capabilities video games observational capabilities

发现论文，激发创造

大型语言模型是否能够很好地玩文本游戏？现状和开放问题

本技术报告针对大型语言模型 (ChatGPT 和 GPT-4)，探究它们在玩文字游戏方面的能力，实验证明 ChatGPT 表现与现有系统相比具有竞争力，但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。

Apr, 2023

GPT-4 作为研究人员和计算软件之间的接口：提高可用性和可重复性

GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题，通过生成正确的输入文件和详细的计算任务描述，减少研究者常规任务、加速新用户培训并提高结果可复现性。

Oct, 2023

LLM （如 GPT-4）是否能在痴呆症诊断中胜过传统人工智能工具？也许，但今天还没有

本研究探讨了大型语言模型（LLM），特别是 GPT-4，在痴呆症诊断中的潜力和局限，通过对两个真实临床数据集的实验结果表明，尽管 LLMs 具有未来进步的潜力，但目前在诊断准确性方面仍不及传统 AI 工具。

Jun, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

SPRING: GPT-4 通过学习论文和推理胜过强化学习算法

提出了一种使用大型语言模型的新方法 ——SPRING 框架，通过读取游戏的原始学术论文，利用所学知识进行推理和游戏，探讨了该方法在 Crafter 开放世界环境下的应用以及其在完成高级轨迹上的潜力。

May, 2023

展望更远：测试 GPT-4 在路径规划中的极限

大型语言模型（LLMs）在各种任务中展示了令人印象深刻的能力，然而它们仍然面临着长期规划的挑战。为了研究这一点，我们提出了路径规划任务作为评估 LLMs 在几何约束下导航长轨迹能力的平台。我们的基准测试系统地测试了复杂环境中的路径规划技能。使用这个基准测试，我们使用各种任务表示和提示方法来研究 GPT-4 的规划能力。我们发现将提示框架化为 Python 代码，并对长期轨迹任务进行分解可以提高 GPT-4 的路径规划效果。然而，尽管这些方法在改善模型的规划能力方面显示出一些希望，但它们不能获得最优路径，并且无法在较长时间范围内进行泛化。

Jun, 2024

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

探索和表征用于嵌入式系统开发和调试的大型语言模型

LLMs like GPT-4 show exceptional cross-domain understanding and reasoning for embedded systems development, producing fully correct programs, functional interfaces, register-level drivers, code for LoRa communication, and context-specific power optimizations, resulting in improved productivity and success rate using an AI workflow.

Jul, 2023