May, 2024

人们在图灵测试中无法区分 GPT-4 与人类

TL;DRGPT-4 在随机和受控的图灵测试中被评定为人类 54%的时间,它超过了 ELIZA(22%),但落后于实际人类(67%)。该研究表明了人工系统通过交互式图灵测试的第一个有力实证,并提出了当前人工智能系统可能未被察觉的欺骗行为,因而对机器智能的讨论产生重要影响。参与者策略和推理的分析显示,风格和社交情感因素比传统的智能概念在通过图灵测试中发挥更大作用。