BriefGPT.xyz
大模型
Ask
alpha
关键词
benchmark suites
搜索结果 - 3
基于特征的性能预测模型的泛化能力研究:基准测试的统计分析
该研究通过对各种基准套件的算法性能预测模型的泛化能力进行考察,比较问题集合的统计相似性和基于探索性景观分析特征的性能预测模型的准确性,我们发现这两个指标之间存在着正相关关系。具体来说,当训练和测试套件之间的高维特征值分布缺乏统计显著性时,模
→
PDF
a month ago
评估性能预测模型的泛化能力
本研究提出了一种可以估算算法性能预测模型泛化能力的方法,并通过在基准测试套件之间训练预测模型来测试该方法的可行性,结果表明,特征空间中的泛化模式确实反映在性能空间中。
PDF
a year ago
NIPS
重新评估评估
本文介绍了一种叫作 Nash 平均的评估方法,能够自动适应评估数据中的冗余信息,从而避免了采用简单任务或弱智能体造成的结果偏差,实现了最大程度的评估包容性。
PDF
6 years ago
Prev
Next