Apr, 2025

非确定性多项式时间问题挑战:为大语言模型提供不断扩展的推理基准

TL;DR本研究针对当前基准测试存在快速崩溃和易被攻击的问题,提出了一种不断扩展的推理基准NPPC,旨在建立不可崩溃、不可攻击、自动验证且通用的基准。研究结果表明,NPPC能有效降低高级大语言模型的性能至10%以下,且提供深入的分析工具,以支持未来人工通用智能的测试与发展。