人们在图灵测试中无法区分 GPT-4 与人类

May, 2024

人们在图灵测试中无法区分 GPT-4 与人类

People cannot distinguish GPT-4 from a human in a Turing test

Cameron R. Jones, Benjamin K. Bergen

TL;DRGPT-4 在随机和受控的图灵测试中被评定为人类 54％的时间，它超过了 ELIZA（22％），但落后于实际人类（67％）。该研究表明了人工系统通过交互式图灵测试的第一个有力实证，并提出了当前人工智能系统可能未被察觉的欺骗行为，因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示，风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。

Abstract

We evaluated 3 systems (ELIZA, GPT-3.5 and gpt-4) in a randomized, controlled, and preregistered turing test. →

systems turing test gpt-4 human participants deception

发现论文，激发创造

GPT-4 是否通过图灵测试？

GPT-4 在一个在线的图灵测试中表现出色，通过了 41% 的比赛，胜过了 ELIZA（27%）和 GPT-3.5（14%）的基准，但不及人类参与者（63%）的基准。参与者的决策主要基于语言风格（35%）和社交情感特征（27%），支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率，这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制，我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响，我们分析了不同策略和准则来评判人类的相似性的效果。

Oct, 2023

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024

图灵欺骗

本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Dec, 2022

GPT-4 在至少跟人类一样理解语篇

GPT-4 与人类在标准化的议论理解测试中表现相近，都对故事中暗含的信息具有强大的推理能力。

Mar, 2024

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

图灵测试的基于游戏化的人类判断方法

该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?，此游戏采用人工智能聊天机器人和人类对话，并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与，研究发现，在人机交互方面，普通用户正确识别人工智能的比率仅为 60％左右，并且为未来探讨了人工智能与人类交互的可能性。

May, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023