图灵测试,一个美丽的思维实验
本文中,我们回顾了 Turing 测试及其变体,并关注了更简单的人机交互问题,探究能够可靠地识别人机交互的方法。我们认为,这个问题的研究不仅可以促进计算机系统发展方法的创新,而且可以提高我们对人类行为的理解。
May, 2023
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究,这篇论文在提供特定问题的交互式库或数据集的前提下,提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学研究中的能力标准,并激发对这个激动人心领域的进一步研究。
May, 2024
通过图灵测试进行了人工智能算法和人类的对比实验,实验结果表明在视觉和语言挑战方面,当前的人工智能算法已能够成功模仿人类的判断。同时,该论文提出了一个评价人类模仿能力的方法,通过该方法可以进行新的理论探究与研究成果的展示。
Nov, 2022
机器对语言和图像的理解正在取得进展,研究界对更为开放和整体的任务产生了浓厚兴趣,我们探讨了几个突出的挑战,主张将 “图像问答” 作为更具吸引力的一种全面任务,这是图灵测试的一个版本,对过度解释的错误更加鲁棒,并将其与其他任务如解释和描述的生成进行比较,最终我们讨论了在该领域测量进展的工具。
Jan, 2015
介绍了一种新的测试方法 —— 图灵实验(TE),用于评估语言模型(如 GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的 TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的 “超级精度扭曲” 问题。
Aug, 2022
该论文提出了一种基于概率图灵机的计算形式化的 QUERY 抽象,通过条件模拟捕获概率条件,从而将常识推理转化为观察到的统计模型中不确定的世界的概率推断。
Dec, 2012
该研究旨在通过构建透明的 AI 系统来提高人机交互的信任关系,并通过引入图灵测试来建立可信度评估体系,以便解释机器学习模型的结果,证明透明的 ML 方法能够通过人机交互获得信任,但也需要注意到人类与机器的辨别能力。
Jun, 2021
本文探讨了生成式人工智能技术的应用领域和能力,重温了图灵关于 “思考机器” 的概念,分析了机器智能测试的重要性,同时指出人工智能机器展示了智能的多个方面,但也存在相应的疑虑和后果。
Jul, 2023