Mar, 2024

LLM 是否是出色的密码填字游戏解答者?

TL;DR利用三种大型语言模型对神秘填字游戏进行基准测试,结果显示它们在这个任务上的表现远远低于人类。