GPT-4 在矩阵游戏中扮演操纵人工智能
本研究探讨了生成式人工智能模型的功效和潜力,特别关注其在角色扮演模拟中的应用,以 Spyfall 为例。通过利用 GPT-4 的先进能力,该研究旨在展示该模型在理解、决策和游戏情节中的互动中的潜力。GPT-4 与其前身 GPT-3.5-turbo 之间的对比分析显示,GPT-4 在游戏环境中的适应性得到了改善,提出了相关问题并形成了类似人类的回应。然而,出现了例如模型在虚张声势和预测对手动作方面的局限性等挑战。研究还讨论了游戏开发、财务限制和非言语限制方面的思考。研究结果表明,虽然 GPT-4 相对于早期模型展示了有希望的进展,但在为人工智能注入更多类人属性方面仍有潜力进一步发展。
Sep, 2023
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
研究论文提出的 Suspicion-Agent 是一种基于 GPT-4 的创新代理器,利用其卓越的知识检索和推理能力,在不完美信息卡牌游戏中展示出卓越的适应性和规划策略,同时表现出较传统算法更好的性能。
Sep, 2023
GPT-4 在一个在线的图灵测试中表现出色,通过了 41% 的比赛,胜过了 ELIZA(27%)和 GPT-3.5(14%)的基准,但不及人类参与者(63%)的基准。参与者的决策主要基于语言风格(35%)和社交情感特征(27%),支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率,这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制,我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响,我们分析了不同策略和准则来评判人类的相似性的效果。
Oct, 2023
GPT-4 在随机和受控的图灵测试中被评定为人类 54%的时间,它超过了 ELIZA(22%),但落后于实际人类(67%)。该研究表明了人工系统通过交互式图灵测试的第一个有力实证,并提出了当前人工智能系统可能未被察觉的欺骗行为,因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示,风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。
May, 2024
本技术报告针对大型语言模型 (ChatGPT 和 GPT-4),探究它们在玩文字游戏方面的能力,实验证明 ChatGPT 表现与现有系统相比具有竞争力,但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。
Apr, 2023
通过一系列实验,我们首先发现了与这些模型一起玩扑克的最佳提示和模型参数的特点。然后,我们观察到了这两个模型不同的扑克玩家风格,结论是 GPT-4 是比 ChatGPT 更高级的扑克玩家。ChatGPT 的保守性与 GPT-4 的攻击性形成了鲜明对比。无论是 ChatGPT 的保守策略还是 GPT-4 的狂人策略,都不是博弈论最优的。
Aug, 2023
研究了 LLMs,特别是 GPT-3.5 和 GPT-4,如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示,GPT-4 能够生成准确、具有挑战性的问题,并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明显改善,从而突显了 LLMs 模拟和增强主动学习场景的潜力,为个性化教育中的人工智能提供了有前景的途径,需要在不同的教育环境中进一步探索。
Jun, 2024
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
本文使用 GPT-4 进行了多项实验来生成计算机代码,发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时,使用 GPT-4 进行代码改进可以显著提高代码质量,但生成的测试仍需要人类验证。
Apr, 2023