人们在图灵测试中无法区分 GPT-4 与人类
GPT-4 在一个在线的图灵测试中表现出色,通过了 41% 的比赛,胜过了 ELIZA(27%)和 GPT-3.5(14%)的基准,但不及人类参与者(63%)的基准。参与者的决策主要基于语言风格(35%)和社交情感特征(27%),支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率,这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制,我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响,我们分析了不同策略和准则来评判人类的相似性的效果。
Oct, 2023
ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中,通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较,共收集了 300 个数据点。研究发现,尽管 AI 生成的作品接近于大学生的质量,但常常可以被人类评估者发现。
Mar, 2024
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
本研究通过基于对话的任务评估 Large Language Models(LLMs)和人类主体在解释语用学方面的能力,结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度,同时在人类写作样本的预测试中也表现出了准确性,进一步的分析也揭示了 LLMs 的显著和持续的发展,为通信中心领域 AI 模型的发展和应用提供了重要的启示。
Dec, 2023
该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?,此游戏采用人工智能聊天机器人和人类对话,并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与,研究发现,在人机交互方面,普通用户正确识别人工智能的比率仅为 60%左右,并且为未来探讨了人工智能与人类交互的可能性。
May, 2023
本文使用 GPT-4 进行了多项实验来生成计算机代码,发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时,使用 GPT-4 进行代码改进可以显著提高代码质量,但生成的测试仍需要人类验证。
Apr, 2023