- 理解理解:受大型语言模型驱动的实用框架
通过随机采样和应用概率置信边界,我们提出了一个测试任何机器或人类是否理解一门主题的框架,其中包括确定问题范围、要求一般能力和避免荒谬答案,但允许某些问题的错误和 “我不知道” 答案。根据我们的框架,目前的大型语言模型不能说理解非平凡领域,但 - AI 科学家的 “图灵测试
通过提出一个 “AI 科学家的图灵测试” 来评估 AI 代理能否独立地进行科学研究,这篇论文在提供特定问题的交互式库或数据集的前提下,提出了七个评估 AI 代理在各个科学领域中进行突破性发现能力的基准测试。这些基准测试旨在建立 AI 在科学 - 人们在图灵测试中无法区分 GPT-4 与人类
GPT-4 在随机和受控的图灵测试中被评定为人类 54%的时间,它超过了 ELIZA(22%),但落后于实际人类(67%)。该研究表明了人工系统通过交互式图灵测试的第一个有力实证,并提出了当前人工智能系统可能未被察觉的欺骗行为,因而对机器智 - LLM 聊天机器人的模仿能力如何?通过 ECHO 评估
使用 ECHO 框架基于图灵测试评估三种角色扮演型大型语言模型(LLMs),结果发现 GPT-4 在欺骗人类评估者方面更为有效,并且 GPTs 实现了 48.3% 的领先成功率。
- 图灵测试,一个美丽的思维实验
基于大型语言模型,本文通过新的档案来源,提供了关于图灵的 1950 年论文的一系列原创答案,对图灵测试的价值进行了核心研究。
- 图灵测试:AI 聊天机器人与人类的行为相似吗?
我们对人工智能聊天机器人进行了图灵测试,研究它们在一系列经典行为游戏以及测量个性特征的传统心理调查中的行为。ChatGPT-4 在图灵测试中通过,表现出与来自 50 多个国家的数十万人的行为相似的人类化行为和个性特征。聊天机器人还根据之前的 - GPT-4 是否通过图灵测试?
GPT-4 在一个在线的图灵测试中表现出色,通过了 41% 的比赛,胜过了 ELIZA(27%)和 GPT-3.5(14%)的基准,但不及人类参与者(63%)的基准。参与者的决策主要基于语言风格(35%)和社交情感特征(27%),支持智能不 - 人工智能的不透明法则
分析了算法的不透明性以及在对人工智能原因责任的公开辩论中的背景;基于图灵测试的对话方法进行实验性研究,期望评估现有最佳之一的生成型 AI 模型(Chat-GPT)的性能,了解其目前达到的程度以及其法律规范的形式可能是什么。研究通过评论意大利 - 现在的机器能够思考吗?
本文探讨了生成式人工智能技术的应用领域和能力,重温了图灵关于 “思考机器” 的概念,分析了机器智能测试的重要性,同时指出人工智能机器展示了智能的多个方面,但也存在相应的疑虑和后果。
- 图灵测试的基于游戏化的人类判断方法
该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?,此游戏采用人工智能聊天机器人和人类对话,并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与,研究发现,在人机交互方面,普通用户正确识别人工智能的比率仅为 - ACL自然语言理解的定义和测试中的自由程度
本篇论文提出对自然语言理解测试的重新思考,通过识别研究人员的自由度,提出有效性论证框架作为设计可靠测试套件的指南以促进科学交流。
- 测试系统智能
讨论了智能系统测试的足够性和实现过程中遇到的问题,并提出了一种替代测试方法,介绍了该方法如何刻画 Turing 测试无法涵盖的人类智能的显著方面。提出了实现替代测试以及验证智能系统属性的框架,并探讨了智能系统验证的内在限制,并建议新的理论基 - 人还是机器:关于图灵测试在日常生活中的思考
本文中,我们回顾了 Turing 测试及其变体,并关注了更简单的人机交互问题,探究能够可靠地识别人机交互的方法。我们认为,这个问题的研究不仅可以促进计算机系统发展方法的创新,而且可以提高我们对人类行为的理解。
- ChatGPT (Feb 13 Version) 是一个中文房间
本文探讨了 ChatGPT 程序是否通过图灵测试可能表现出人类智能,结果发现目前的 ChatGPT 更像是一个中文房间,存在因果推理、谬误示例等问题,同时它也能够产生人工幻觉和虚假参考文献,因此其实用性值得警惕。
- 图灵欺骗
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answerin - 构建人机兼容的自动驾驶汽车:基于情感转移建模的自动驾驶非言语图灵测试研究
研究了通过非语言图灵测试来评估自动驾驶汽车所提供的人类体验。其中,实验结果表明,与人类驾驶员相比,被测试的 AI 驾驶员提供的人类体验并不尽如人意,并结合 Lewin 的现场理论,进一步探讨了情感过渡如何影响乘客对于与人类驾驶员相似的自动驾 - 分析人工通用智能的语境短板
本文讨论了人工智能专家误解模仿游戏,将 HL-level Intelligence 视作人工智能发展的目标,认为 Access 和 Ingest data 是 AGI 发展的当前瓶颈,因此应该重新审视图灵测试,通过对比探讨人工智能和人类数据 - 人类还是机器?视觉和语言的图灵测试
通过图灵测试进行了人工智能算法和人类的对比实验,实验结果表明在视觉和语言挑战方面,当前的人工智能算法已能够成功模仿人类的判断。同时,该论文提出了一个评价人类模仿能力的方法,通过该方法可以进行新的理论探究与研究成果的展示。
- 从知识增强到多任务学习:走向类人对话系统
研究人工智能中的对话代理,探索深度学习技术如何提高人工对话代理水平。
- 人机系统性能评估测试
本论文给出了一种衡量人机系统相对于单独人类或计算机表现更好的测试方法,并通过对 79 个实验结果的分析、使用 GPT-3 人工智能系统等实验证明这种方法的有效性和应用性,还展示了一种很强的人机协同的例子。