AAAISep, 2023
用贝叶斯三角测量推断任务绩效中的能力
Inferring Capabilities from Task Performance with Bayesian Triangulation
John Burden, Konstantinos Voudouris, Ryan Burnell, Danaja Rutar, Lucy Cheke...
TL;DR从多样的实验数据中推断系统的认知特征,我们介绍了一种方法来描述机器学习模型,引入测量布局来模拟任务实例特征与系统能力如何影响性能,使用贝叶斯概率编程库 PyMC 推断出不同认知特征的代理在动物人工智能奥林匹克的 68 名实际参赛选手和 O-PIAAGETS 的 30 个合成代理的能力,展示了基于能力的评估的潜力。