人还是机器：关于图灵测试在日常生活中的思考

May, 2023

人还是机器：关于图灵测试在日常生活中的思考

Human or Machine: Reflections on Turing-Inspired Testing for the Everyday

David Harel, Assaf Marron

TL;DR本文中，我们回顾了 Turing 测试及其变体，并关注了更简单的人机交互问题，探究能够可靠地识别人机交互的方法。我们认为，这个问题的研究不仅可以促进计算机系统发展方法的创新，而且可以提高我们对人类行为的理解。

Abstract

Turing's 1950 paper introduced the famed "imitation game", a test originally proposed to capture the notion of machine intelligence. Over the years, the turing test spawned a large amount of interest, which resul

turing test machine intelligence human-or-machine question computerized systems human behavior

发现论文，激发创造

元图灵测试

我们提出了一种替代图灵测试的方法，通过使双方的人类和机器都参与评判从而消除原始模仿游戏中人与机器之间的固有不对称性，并且建议了一些改进来提高这种测试的鲁棒性。

May, 2022

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

图灵测试的基于游戏化的人类判断方法

该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?，此游戏采用人工智能聊天机器人和人类对话，并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与，研究发现，在人机交互方面，普通用户正确识别人工智能的比率仅为 60％左右，并且为未来探讨了人工智能与人类交互的可能性。

May, 2023

图灵陷阱：人工智能的承诺与危险

人类智能和人类增强的人工智能有着不同的激励，目前技术人员、商业和政策制定者都过分倾向于自动化，这种趋势可能导致失去经济权利和政治议价权，而研究开发人类增强的 AI 才有助于人类保持掌握营造价值的能力。

Jan, 2022

图灵欺骗

本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Dec, 2022

测试系统智能

讨论了智能系统测试的足够性和实现过程中遇到的问题，并提出了一种替代测试方法，介绍了该方法如何刻画 Turing 测试无法涵盖的人类智能的显著方面。提出了实现替代测试以及验证智能系统属性的框架，并探讨了智能系统验证的内在限制，并建议新的理论基础来扩展现有的严格测试方法。建议基于人与机器技能互补关系的替代测试可以导致多种反映将基于数据的和符号知识以不同程度相结合的智能概念。

May, 2023

现在的机器能够思考吗？

本文探讨了生成式人工智能技术的应用领域和能力，重温了图灵关于 “思考机器” 的概念，分析了机器智能测试的重要性，同时指出人工智能机器展示了智能的多个方面，但也存在相应的疑虑和后果。

Jul, 2023

图灵测试，一个美丽的思维实验

基于大型语言模型，本文通过新的档案来源，提供了关于图灵的 1950 年论文的一系列原创答案，对图灵测试的价值进行了核心研究。

Dec, 2023

社交机器人的兴起

探讨社交机器人的现代特征和存在对在线生态和社会的危害性，以及对于在 Twitter 上检测社交机器人的现有努力以及这些机器人行为的特征，如内容、网络、情绪和时间模式与真实人类行为的区别。

Jul, 2014

Hard to Cheat: 基于图像问题回答的图灵测试

机器对语言和图像的理解正在取得进展，研究界对更为开放和整体的任务产生了浓厚兴趣，我们探讨了几个突出的挑战，主张将 “图像问答” 作为更具吸引力的一种全面任务，这是图灵测试的一个版本，对过度解释的错误更加鲁棒，并将其与其他任务如解释和描述的生成进行比较，最终我们讨论了在该领域测量进展的工具。

Jan, 2015