Jul, 2024

在错置和倒置图灵测试中, GPT-4被认为比人类更具人类特征

TL;DR在日常的AI检测中,需要在非正式的在线对话中区分人与AI。通过反转和位移的图灵测试,我们测量了人类和大规模语言模型在区分人类和AI方面的能力,并发现与互动质询者相比,AI和位移人类评审员的准确性较低。此外,这三个评审体都更常将表现最佳的GPT-4模型判断为人类,而非真实的人类参与者,这表明无论是人类还是目前的LLMs都很难在非质询状态下区分两者,强调了需要更准确的工具来检测对话中的AI的紧迫性。