In spite of machine learning's rapid growth, its engineering support is
scattered in many forms, and tends to favor certain engineering stages,
stakeholders, and evaluation preferences. We envision a capability-b
在本文中,我们利用大语言模型(LLMs)的能力作为运行示例,借鉴能力的大量哲学文献,发展了一个能有效应用于模型评估的机器学习模型能力的条件分析(CAMA)的核心提案,在机器学习的背景下对 CAMA 进行了精确定义,从而实现了适用于 LLMs 的 CAMA 操作。然后,我们运用 CAMA,展示它能够有助于理解机器学习模型评估实践的各种特征,并提出了进行公正的模型间比较的程序。