元图灵测试
本文中,我们回顾了 Turing 测试及其变体,并关注了更简单的人机交互问题,探究能够可靠地识别人机交互的方法。我们认为,这个问题的研究不仅可以促进计算机系统发展方法的创新,而且可以提高我们对人类行为的理解。
May, 2023
通过图灵测试进行了人工智能算法和人类的对比实验,实验结果表明在视觉和语言挑战方面,当前的人工智能算法已能够成功模仿人类的判断。同时,该论文提出了一个评价人类模仿能力的方法,通过该方法可以进行新的理论探究与研究成果的展示。
Nov, 2022
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?,此游戏采用人工智能聊天机器人和人类对话,并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与,研究发现,在人机交互方面,普通用户正确识别人工智能的比率仅为 60%左右,并且为未来探讨了人工智能与人类交互的可能性。
May, 2023
讨论了智能系统测试的足够性和实现过程中遇到的问题,并提出了一种替代测试方法,介绍了该方法如何刻画 Turing 测试无法涵盖的人类智能的显著方面。提出了实现替代测试以及验证智能系统属性的框架,并探讨了智能系统验证的内在限制,并建议新的理论基础来扩展现有的严格测试方法。建议基于人与机器技能互补关系的替代测试可以导致多种反映将基于数据的和符号知识以不同程度相结合的智能概念。
May, 2023
介绍了一种新的测试方法 —— 图灵实验(TE),用于评估语言模型(如 GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的 TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的 “超级精度扭曲” 问题。
Aug, 2022
机器对语言和图像的理解正在取得进展,研究界对更为开放和整体的任务产生了浓厚兴趣,我们探讨了几个突出的挑战,主张将 “图像问答” 作为更具吸引力的一种全面任务,这是图灵测试的一个版本,对过度解释的错误更加鲁棒,并将其与其他任务如解释和描述的生成进行比较,最终我们讨论了在该领域测量进展的工具。
Jan, 2015
人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人(2000)提议的改进型道德图灵测试(m-MTT),通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价,代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现,在几乎所有维度上,包括美德、智力和可靠性,他们评价 AI 的道德推理质量高于人类的,这与 Allen 等人所称的相对 MTT 相一致。接下来,在确定每个评价的来源(人类还是计算机)的任务中,人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试,但不是因为它的道德推理不如人类,而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。
Apr, 2024
该研究旨在通过构建透明的 AI 系统来提高人机交互的信任关系,并通过引入图灵测试来建立可信度评估体系,以便解释机器学习模型的结果,证明透明的 ML 方法能够通过人机交互获得信任,但也需要注意到人类与机器的辨别能力。
Jun, 2021
本论文给出了一种衡量人机系统相对于单独人类或计算机表现更好的测试方法,并通过对 79 个实验结果的分析、使用 GPT-3 人工智能系统等实验证明这种方法的有效性和应用性,还展示了一种很强的人机协同的例子。
Jun, 2022