GPT-4 在矩阵游戏中扮演操纵人工智能

May, 2024

GPT-4 在矩阵游戏中扮演操纵人工智能

Transcript of GPT-4 playing a rogue AGI in a Matrix Game

Lewis D Griffin, Nicholas Riggs

TL;DRMatrix Games 是一种无约束战争游戏，用于探索场景。该研究重点关注 QuAI Sera Sera 的 Matrix Game，在该游戏中，GPT-4 以人类操作员为接口，与其他玩家进行私下沟通并选择有支持的行动。

Abstract

matrix games are a type of unconstrained wargame used by planners to explore scenarios. Players propose actions, and give arguments and counterarguments for their success. An umpire, assisted by dice rolls modifi

matrix games unconstrained wargame quai sera sera agi gpt-4

发现论文，激发创造

黑帮游戏模拟中的生成式人工智能

本研究探讨了生成式人工智能模型的功效和潜力，特别关注其在角色扮演模拟中的应用，以 Spyfall 为例。通过利用 GPT-4 的先进能力，该研究旨在展示该模型在理解、决策和游戏情节中的互动中的潜力。GPT-4 与其前身 GPT-3.5-turbo 之间的对比分析显示，GPT-4 在游戏环境中的适应性得到了改善，提出了相关问题并形成了类似人类的回应。然而，出现了例如模型在虚张声势和预测对手动作方面的局限性等挑战。研究还讨论了游戏开发、财务限制和非言语限制方面的思考。研究结果表明，虽然 GPT-4 相对于早期模型展示了有希望的进展，但在为人工智能注入更多类人属性方面仍有潜力进一步发展。

Sep, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

可疑 - 代理人：利用心灵理论在察觉不完全信息游戏中玩耍的 GPT4

研究论文提出的 Suspicion-Agent 是一种基于 GPT-4 的创新代理器，利用其卓越的知识检索和推理能力，在不完美信息卡牌游戏中展示出卓越的适应性和规划策略，同时表现出较传统算法更好的性能。

Sep, 2023

GPT-4 是否通过图灵测试？

GPT-4 在一个在线的图灵测试中表现出色，通过了 41% 的比赛，胜过了 ELIZA（27%）和 GPT-3.5（14%）的基准，但不及人类参与者（63%）的基准。参与者的决策主要基于语言风格（35%）和社交情感特征（27%），支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率，这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制，我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响，我们分析了不同策略和准则来评判人类的相似性的效果。

Oct, 2023

人们在图灵测试中无法区分 GPT-4 与人类

GPT-4 在随机和受控的图灵测试中被评定为人类 54％的时间，它超过了 ELIZA（22％），但落后于实际人类（67％）。该研究表明了人工系统通过交互式图灵测试的第一个有力实证，并提出了当前人工智能系统可能未被察觉的欺骗行为，因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示，风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。

May, 2024

大型语言模型是否能够很好地玩文本游戏？现状和开放问题

本技术报告针对大型语言模型 (ChatGPT 和 GPT-4)，探究它们在玩文字游戏方面的能力，实验证明 ChatGPT 表现与现有系统相比具有竞争力，但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。

Apr, 2023

ChatGPT 和 GPT-4 是优秀的扑克选手吗？—— 一项翻牌前的分析

通过一系列实验，我们首先发现了与这些模型一起玩扑克的最佳提示和模型参数的特点。然后，我们观察到了这两个模型不同的扑克玩家风格，结论是 GPT-4 是比 ChatGPT 更高级的扑克玩家。ChatGPT 的保守性与 GPT-4 的攻击性形成了鲜明对比。无论是 ChatGPT 的保守策略还是 GPT-4 的狂人策略，都不是博弈论最优的。

Aug, 2023

提升教育中主动学习的生成式人工智能：基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究

研究了 LLMs，特别是 GPT-3.5 和 GPT-4，如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示，GPT-4 能够生成准确、具有挑战性的问题，并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明显改善，从而突显了 LLMs 模拟和增强主动学习场景的潜力，为个性化教育中的人工智能提供了有前景的途径，需要在不同的教育环境中进一步探索。

Jun, 2024

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023