图灵欺骗

Dec, 2022

The Turing Deception

David Noever, Matt Ciolino

TL;DR本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Abstract

This research revisits the classic turing test and compares recent large language models such as chatgpt for their abilities to reproduce

turing test language models chatgpt question answering original content

发现论文，激发创造

GPT-4 是否通过图灵测试？

GPT-4 在一个在线的图灵测试中表现出色，通过了 41% 的比赛，胜过了 ELIZA（27%）和 GPT-3.5（14%）的基准，但不及人类参与者（63%）的基准。参与者的决策主要基于语言风格（35%）和社交情感特征（27%），支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率，这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制，我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响，我们分析了不同策略和准则来评判人类的相似性的效果。

Oct, 2023

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

人们在图灵测试中无法区分 GPT-4 与人类

GPT-4 在随机和受控的图灵测试中被评定为人类 54％的时间，它超过了 ELIZA（22％），但落后于实际人类（67％）。该研究表明了人工系统通过交互式图灵测试的第一个有力实证，并提出了当前人工智能系统可能未被察觉的欺骗行为，因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示，风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。

May, 2024

利用机器学习区分人类生成文本和 ChatGPT 生成的文本

本研究提出了一种基于机器学习的解决方案，可以识别 ChatGPT 生成的文本，并在分类过程中比较分析了共 11 种机器学习和深度学习算法。在 Kaggle 数据集上测试，该算法在由 GPT-3.5 生成的语料库上表现出 77% 的准确率。

May, 2023

生成模型的统计图灵测试

通过统计模式识别语言提供了一个框架，量化了针对评估上下文的人类生成内容和机器生成内容之间的差异，描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。

Sep, 2023

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法 —— 图灵实验（TE），用于评估语言模型（如 GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的 TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的 “超级精度扭曲” 问题。

Aug, 2022

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

32 个大学课程中对话式人工智能的感知、表现和可检测性

该研究比较了 ChatGPT 和 32 门大学课程学生的表现，发现 ChatGPT 在许多课程中的表现相当，甚至优于许多学生。此外，其使用也难以被 AI 文本分类器可靠地检测出来，并且出现了学生使用该工具和教育者将其视为抄袭的共识，这些发现为 AI 融入教育框架的政策讨论提供了指导。

May, 2023

测试 GPT-3 的创造力（替代用途）

我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力，结果显示人类目前在创造性输出方面表现优于 GPT-3，但我们相信这只是时间问题。

Jun, 2022

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023