可扩展的采样式规则列表学习

KDDJun, 2024

Scalable Rule Lists Learning with Sampling

Leonardo Pellegrina, Fabio Vandin

TL;DR从大数据集中学习近乎最优的规则列表的一种新颖和可扩展的方法，使用采样以有效获得近似最优规则列表，并在质量上做出保证，速度比精确方法快两个数量级，并且与启发式方法相比更高质量的规则列表。

Abstract

Learning interpretable models has become a major focus of machine learning research, given the increasing prominence of machine learning in socially important decision-making. Among interpretable models,

interpretable models rule lists computational efficiency vc-dimension approximation

发现论文，激发创造

可扩展的贝叶斯规则列表

提出了一种建立概率规则列表的算法，其速度比以前的工作快两个数量级，并能够通过优化规则列表在准确性、可解释性和计算速度之间实现实用平衡，并利用贝叶斯分层模型优化概率分类器。

Feb, 2016

针对分类数据学习可证实最优规则列表

本文提出了一种基于离散优化的过程，用于构建基于分类特征空间的规则列表，并且通过算法边界、高效数据结构和计算复用来获得数倍的时间加速和大幅度降低的内存消耗。其结果表明，通过本方法可以在几秒钟内构建出比 Broward County，Florida 的数据上的 COMPAS 专有风险预测工具准确性近似的解释性优化规则列表，这是一种新的解释性建模决策树方法的替代方案。

Apr, 2017

基于 MDL 的规则列表的可解释多分类

本文介绍了一种基于概率规则列表和最小描述长度原则的模型选择方法，该方法可以在减小模型复杂度与保持良好拟合度之间进行折衷。同时，介绍了 Classy 算法，该算法针对多类别分类问题，选择小的概率规则列表，实现了良好的性能和可解释性。

May, 2019

多样化的规则集

该研究提出了一种新方法来推断不同的规则集，通过在 Max-Sum 多样化框架下优化决策规则之间的小重叠，以及在鉴别品质和规则集多样性之间最大化加权总和，来克服联想规则指数级搜索空间的困难。该算法通过随机采样高度鉴别且重叠小的规则，并证明其拥有更好的预测能力和解释性。

Jun, 2020

可解释分类规则的高效学习

本文介绍了一种名为 IMLI 的基于最大可满足性的可解释学习框架，通过结合小批量学习和迭代规则学习的方法，实现了分类规则的合成。实验结果表明，IMLI 在预测准确性、可解释性和可伸缩性之间取得了最好的平衡，并用于学习流行的可解释分类器，如决策列表和决策集。

May, 2022

学习可解释规则的可扩展数据表示和分类

我们提出了一种新的分类器，命名为基于规则的表示学习器（RRL），它能够自动学习用于数据表示和分类的可解释的非模糊规则，并通过连续空间和梯度移植来优化离散模型，同时设计了逻辑激活函数以提高可扩展性和连续特征离散化。与竞争的可解释方法相比，RRL 在小型和大型数据集上有更好的性能，并且可以根据不同场景的需求方便地调整分类准确性和模型复杂性的权衡。

Oct, 2023

学习落规则列表的优化方法

本研究提出一种优化方法，用于学习下降规则列表和 “软化” 的下降规则列表，并提出了蒙特卡罗搜索算法，以限制对最优解的搜索空间，从而实现分类的概率化决策。

Oct, 2017

为分类学习定性多样和可解释性规则

本文提出了一种方法来识别数据集的最大不同但准确的模型，实验证明，当数据支持多个准确分类器时，我们往往会恢复更简单，更易解释的分类器而不是更复杂的模型。

Jun, 2018

应用分布鲁棒优化获得可解释的分类模型

通过利用分布鲁棒优化，我们提出了一个新的公式来学习一组规则集的集合，以在保持计算成本低的同时确保良好的泛化性能，并通过构建一个稀疏的规则集合来解决规则集的稀疏性和预测准确性之间的固有权衡。

Nov, 2023

广义线性规则模型

本文提出使用基于规则的特征（也称为规则集成）的广义线性模型，用于回归和概率分类，通过列生成算法，优化规则集合的复杂度和预测准确性的平衡。在逻辑回归和线性回归的实验中，与现有的规则集成算法相比，所提出的方法可以获得更好的准确性 - 复杂度平衡，一端可以与少量簇比较。

Jun, 2019