Dec, 2022

图灵欺骗

TL;DR本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。