May, 2025

Enigme:用于评估语言模型推理能力的生成文本谜题

TL;DR本研究针对现有生成性人工智能模型在推理能力上的局限性,提出了通过考虑模型架构约束来设计推理任务的新方法。研究开发了开源库“enigme”,用于生成用于训练和评估变换器解码模型推理技能的文本谜题,其潜在影响在于提升AI在推理任务上的表现。