BriefGPT.xyz
Ask
alpha
关键词
functional variants
搜索结果 - 1
用于稳健评估推理性能和推理差距的功能基准
我们提出了一个用于鲁棒评估语言模型推理能力的框架,使用功能变体基准。在静态问题版本与功能变体快照之间,解决推理测试的模型在性能上不应有差异。我们将 MATH 基准的相关片段重写为其功能变体 MATH (),其他基准的函数化会随之进行。通过对
→
PDF
4 months ago
Prev
Next