图灵测试，一个美丽的思维实验

Dec, 2023

Turing's Test, a Beautiful Thought Experiment

Bernardo Gonçalves

TL;DR基于大型语言模型，本文通过新的档案来源，提供了关于图灵的 1950 年论文的一系列原创答案，对图灵测试的价值进行了核心研究。

Abstract

In the wake of large language models, there has been a resurgence of claims and questions about the turing test and its value for ai, whic

large language models turing test ai quantum physics archival sources

发现论文，激发创造

人还是机器：关于图灵测试在日常生活中的思考

本文中，我们回顾了 Turing 测试及其变体，并关注了更简单的人机交互问题，探究能够可靠地识别人机交互的方法。我们认为，这个问题的研究不仅可以促进计算机系统发展方法的创新，而且可以提高我们对人类行为的理解。

May, 2023

图灵欺骗

本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Dec, 2022

AI 科学家的 “图灵测试

通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究，这篇论文在提供特定问题的交互式库或数据集的前提下，提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准，并激发对这个激动人心领域的进一步研究。

May, 2024

元图灵测试

我们提出了一种替代图灵测试的方法，通过使双方的人类和机器都参与评判从而消除原始模仿游戏中人与机器之间的固有不对称性，并且建议了一些改进来提高这种测试的鲁棒性。

May, 2022

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

Hard to Cheat: 基于图像问题回答的图灵测试

机器对语言和图像的理解正在取得进展，研究界对更为开放和整体的任务产生了浓厚兴趣，我们探讨了几个突出的挑战，主张将 “图像问答” 作为更具吸引力的一种全面任务，这是图灵测试的一个版本，对过度解释的错误更加鲁棒，并将其与其他任务如解释和描述的生成进行比较，最终我们讨论了在该领域测量进展的工具。

Jan, 2015

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法 —— 图灵实验（TE），用于评估语言模型（如 GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的 TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的 “超级精度扭曲” 问题。

Aug, 2022

通过条件模拟实现常识推理：图灵在人工智能中的遗产

该论文提出了一种基于概率图灵机的计算形式化的 QUERY 抽象，通过条件模拟捕获概率条件，从而将常识推理转化为观察到的统计模型中不确定的世界的概率推断。

Dec, 2012

透明度的图灵测试

该研究旨在通过构建透明的 AI 系统来提高人机交互的信任关系，并通过引入图灵测试来建立可信度评估体系，以便解释机器学习模型的结果，证明透明的 ML 方法能够通过人机交互获得信任，但也需要注意到人类与机器的辨别能力。

Jun, 2021

现在的机器能够思考吗？

本文探讨了生成式人工智能技术的应用领域和能力，重温了图灵关于 “思考机器” 的概念，分析了机器智能测试的重要性，同时指出人工智能机器展示了智能的多个方面，但也存在相应的疑虑和后果。

Jul, 2023