通过对数据的简单规则的合并构建普通回归和分类模型,生成的规则集在预测准确性方面与最佳方法相当,但其主要优势在于解释和分析相应的输入变量之间的交互作用与影响。技术也被介绍用于自动识别规则中涉及到的变量以及与其相互作用的其他变量等信息,并使用图像来可视化相应数据的效应。
Nov, 2008
通过利用分布鲁棒优化,我们提出了一个新的公式来学习一组规则集的集合,以在保持计算成本低的同时确保良好的泛化性能,并通过构建一个稀疏的规则集合来解决规则集的稀疏性和预测准确性之间的固有权衡。
Nov, 2023
我们提出了一种新的分类器,命名为基于规则的表示学习器(RRL),它能够自动学习用于数据表示和分类的可解释的非模糊规则,并通过连续空间和梯度移植来优化离散模型,同时设计了逻辑激活函数以提高可扩展性和连续特征离散化。与竞争的可解释方法相比,RRL 在小型和大型数据集上有更好的性能,并且可以根据不同场景的需求方便地调整分类准确性和模型复杂性的权衡。
Oct, 2023
本文提出了一种新的框架来学习规则集合模型,该模型既准确又可解释,该模型的可解释性通过评估模型所需表达预测所需的规则数量来评估,并提出了一种促进局部可解释性的正则化器,通过局部搜索的坐标下降算法来学习规则集合。实验结果表明,与现有方法(包括 RuleFit)相比,我们的方法学习规则集合时所需规则数量更少,同时仍然保持相当的准确性。
Jun, 2023
决策树是一种高度可解释的模型,用于解决机器学习中的分类问题。本文提出了一种基于列生成的启发式方法来学习决策树,在多类别分类实例中减少子问题数量,并改进了数据依赖约束和线性规划松弛解的分离模型,以提高可扩展性。
Aug, 2023
提出了一种建立概率规则列表的算法,其速度比以前的工作快两个数量级,并能够通过优化规则列表在准确性、可解释性和计算速度之间实现实用平衡,并利用贝叶斯分层模型优化概率分类器。
Feb, 2016
通过简单规则的选择、回归和舍入方法,应用因果推断工具,探究司法决策中释放或拘留被告的影响因素,并发现简单规则的性能与随机森林等复杂机器学习算法相当。
Feb, 2017
本文介绍了一种基于概率规则列表和最小描述长度原则的模型选择方法,该方法可以在减小模型复杂度与保持良好拟合度之间进行折衷。同时,介绍了 Classy 算法,该算法针对多类别分类问题,选择小的概率规则列表,实现了良好的性能和可解释性。
May, 2019
本文介绍了一种基于整数规划和列生成的方法,用于学习在 DNF 或 CNF 形式下的布尔规则作为分类的可解释模型,并提出了一种基于随机化的近似 CG 算法来处理大规模数据集。
May, 2018
提出了一种基于大型语言模型(LLMs)的新的表格学习框架,称为优化列特征生成器与决策树推理(OCTree)。使用 LLMs 的推理能力,通过不手动指定搜索空间并提供基于语言的推理信息,将过去的实验作为反馈来改进迭代的规则,从而找到好的特征生成规则。实证结果表明,这一简单框架在各种表格基准上始终提高了各种预测模型的性能,优于竞争的自动特征工程方法。
Jun, 2024