利用重要性权重选择原型实现高效的数据表示

Jul, 2017

利用重要性权重选择原型实现高效的数据表示

Efficient Data Representation by Selecting Prototypes with Importance Weights

Karthik S. Gurumoorthy, Amit Dhurandhar, Guillermo Cecchi, Charu Aggarwal

TL;DR本文提出了一种数据挖掘算法，利用强理论保证在任何对称正定核情况下找到代表性原型和批评（即异常值），并演示了其在零售、MNIST 数字识别和 CDC 数据集上的实际应用效果。

Abstract

Prototypical examples that best summarizes and compactly represents an underlying complex data distribution communicate meaningful insights to humans in domains where simple explanations are hard to extract. In this paper we present algorithms with strong theoretical guarantees to mine these data sets and select →

prototypes data mining kernel outliers submodularity

发现论文，激发创造

可解释分类的原型选择

该论文探讨了基于模板方法选择数据集中的样本子集，以在分类场景下实现数据精简，即挑选代表性样本集合进行分类任务的研究，并提出了一种基于集合覆盖优化的方法来解决这一问题。

Feb, 2012

高斯分布原型混合与生成模型相结合的可解释的图像分类

这篇论文介绍了一种新的原型分布生成学习方法，名为 MGProto，它使用高斯混合模型表示原型分布，并结合原型多样性目标函数来提高表示能力和减少冗余，同时利用其生成性质实现了有效的异常样本检测。实验结果表明 MGProto 在分类和异常样本检测方面取得了最先进的性能，并具有令人鼓舞的可解释性结果。

Nov, 2023

机器学习中的分布密度、尾部和异常值：指标和应用

提出了一种度量给定数据集中某个训练或测试实例在概率分布中的离群程度的技术，并使用五种不同的定义 “well-represented” 方法对四个常见数据集进行了评估，发现这些方法高度相关，可以用于识别样本，在课程学习中改进排序并提高鲁棒性。

Oct, 2019

学习和记忆 3D 点云的代表性原型，用于语义和实例分割

提出了一种利用记忆增强网络来解决三维点云场景理解中实例和语义分割中的样本不平衡问题的解决方案。该方法引入了一个记忆模块，通过记录小批量训练中所见的模式来缓解遗忘问题，这样所学习到的存储项目能够反映出支配类别和非支配类别 / 案例的可解释和有意义的信息，从而导致更好的性能和通用性。

Jan, 2020

使用空间抽象加速原型选择

本文提出一种通过构建数据集的抽象表示并利用空间划分的方法来加速现有的原型选择技术，将其应用于常规原型选择算法，以提高准确率同时增强减少率和缩短执行时间。

Mar, 2024

通过原型散射和正样本采样学习聚类表示

本文提出了一种新的、端到端的深度聚类方法 ——ProPos，它结合了原型散射和正样本采样对聚类性能进行了提升，并通过在大规模数据集上的实验证明了其具有领先的性能。

Nov, 2021

一种用于数据集级应用的原型汇聚表示法

本研究提出了一种基于样本原型聚类的数据集向量化方法，即包含语义原型的数据集级词袋模型，可用于评估数据集的适用性和测试集的难度，并且在不考虑数据集标签的情况下，与 Jensen-Shannon divergence 相结合，有效地衡量数据集之间的相似性。

Mar, 2023

学习选择典型部分进行可解释的序列数据建模

本文提出了一种基于样例理解的自选模型，使用原型概念的线性组合来解释自己的预测，以实现更好的可解释性，并通过多种限制条件进行优化。实验结果表明该方法具有良好的可解释性和竞争性的准确性。

Dec, 2022

一种基于加权 K-Center 算法的数据子集选择

基于深度学习的子集选择方法，通过结合高不确定性的边缘采样和多样性聚类方法的加权和来计算子集，并通过并行算法在大数据集上取得了类似或更好的性能表现。

Dec, 2023

基于不相似性的稀疏子集选择

本文提出了一种在计算机视觉、生物 / 健康信息学及图像和自然语言处理等领域中集合选择问题的求解方法，通过行稀疏的迹最小化问题的凸松弛，找到代表样本集，并赋予目标集合中的每个元素到代表样本的分配，实现集群化，并通过交替方向乘法法（ADMM）框架实现快速优化。实验证明，该算法在场景分类和时间序列建模和分割等问题上都具有优异的性能。

Jul, 2014