在错置和倒置图灵测试中, GPT-4被认为比人类更具人类特征

Jul, 2024

在错置和倒置图灵测试中, GPT-4被认为比人类更具人类特征

GPT-4 is judged more human than humans in displaced and inverted Turing tests

Ishika Rathi, Sydney Taylor, Benjamin K. Bergen, Cameron R. Jones

TL;DR在日常的AI检测中，需要在非正式的在线对话中区分人与AI。通过反转和位移的图灵测试，我们测量了人类和大规模语言模型在区分人类和AI方面的能力，并发现与互动质询者相比，AI和位移人类评审员的准确性较低。此外，这三个评审体都更常将表现最佳的GPT-4模型判断为人类，而非真实的人类参与者，这表明无论是人类还是目前的LLMs都很难在非质询状态下区分两者，强调了需要更准确的工具来检测对话中的AI的紧迫性。

Abstract

Everyday ai detection requires differentiating between people and AI in informal, online conversations. In many cases, people will not interact directly with AI systems but instead read conversations between AI s

发现论文，激发创造

透明度的图灵测试

该研究旨在通过构建透明的AI系统来提高人机交互的信任关系，并通过引入图灵测试来建立可信度评估体系，以便解释机器学习模型的结果，证明透明的ML方法能够通过人机交互获得信任，但也需要注意到人类与机器的辨别能力。

Jun, 2021

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

图灵测试的基于游戏化的人类判断方法

该论文报告了一项灵感来自图灵测试的在线游戏Human or Not?，此游戏采用人工智能聊天机器人和人类对话，并要求参与者正确识别对方身份。该游戏吸引了超过150万用户参与，研究发现，在人机交互方面，普通用户正确识别人工智能的比率仅为60％左右，并且为未来探讨了人工智能与人类交互的可能性。

May, 2023

GPT-4是否通过图灵测试？

GPT-4在一个在线的图灵测试中表现出色，通过了41%的比赛，胜过了ELIZA（27%）和GPT-3.5（14%）的基准，但不及人类参与者（63%）的基准。参与者的决策主要基于语言风格（35%）和社交情感特征（27%），支持智能不足以通过图灵测试的观点。与教育程度和对LLMs的熟悉程度等参与者的个人信息无法预测检测率，这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制，我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的AI模型可能对社会产生广泛的影响，我们分析了不同策略和准则来评判人类的相似性的效果。

Oct, 2023

图灵测试：AI聊天机器人与人类的行为相似吗？

我们对人工智能聊天机器人进行了图灵测试，研究它们在一系列经典行为游戏以及测量个性特征的传统心理调查中的行为。ChatGPT-4在图灵测试中通过，表现出与来自50多个国家的数十万人的行为相似的人类化行为和个性特征。聊天机器人还根据之前的经验和上下文修改行为，表现出仿佛从互动中学习，并在面对同一战略情景的不同表述时改变行为。它们的行为常常与普通和模态人类行为不同，通常表现出更为利他和合作的一面，并且估计它们的行为好像在最大化自己和合作伙伴的收益的平均值。

Nov, 2023

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT的变种GPT-3.5和GPT-4在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与GPT-4贡献混合类别相比较，共收集了300个数据点。研究发现，尽管AI生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024

GPT-4在至少跟人类一样理解语篇

GPT-4与人类在标准化的议论理解测试中表现相近，都对故事中暗含的信息具有强大的推理能力。

Mar, 2024

人们在图灵测试中无法区分GPT-4与人类

GPT-4在随机和受控的图灵测试中被评定为人类54％的时间，它超过了ELIZA（22％），但落后于实际人类（67％）。该研究表明了人工系统通过交互式图灵测试的第一个有力实证，并提出了当前人工智能系统可能未被察觉的欺骗行为，因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示，风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。

May, 2024

可以信任的对话：人类与AI对生成对话的视角

本研究解决了对话系统评估效率与准确性缺乏的方法问题，通过比较人类与AI在多种对话场景下的评估表现，揭示了GPT模型与人类判断的紧密一致性。研究表明，尽管GPT-4o在保持事实准确性和常识推理上表现良好，但在减少冗余和自我矛盾方面仍需改进，为未来更精准的对话评估方法奠定基础。

Sep, 2024

人工智能能替代人类受试者吗？对心理实验的大规模复制研究

本研究针对人工智能在社会科学研究中的应用，探讨大型语言模型（LLMs）如GPT-4在心理实验中是否能有效替代人类受试者。通过复制154个心理实验，发现GPT-4在主效应的复现率为76%但在交互效应中仅为47%，显示出其潜力与局限性，提醒研究者在解读AI驱动的结果时需保持谨慎。

Aug, 2024