- GreedyML:一种并行的最大化子模函数算法
我们描述了一种并行的近似算法,用于在分布式内存多处理器上最大化满足遗传约束的单调次模函数。
- 超越单调性的数据摘要:非单调两阶段子模最大化
针对两阶段子模问题,使用提供的子模训练函数减少底层集合,以确保优化新的目标函数能在减少后的底层集合上获得与原始底层集合相当的结果。本研究突破性地将非单调子模函数引入此领域,并提出了首个常数因子近似算法。
- 时间到模式:面向可扩展时间序列概括的信息论非监督学习
时间序列汇总是从数据集中生成可解释和有代表性子集的过程。我们引入了一种名为 Time-to-Pattern (T2P) 的时间序列汇总方法,通过学习离散时间序列的信息嵌入,在解释性的潜在空间中找到一组多样性模式来编码最显著的信息,并在综合实 - 通过随机化实现子模函数最大化的长期公平性
通过开发近似算法解决具有组内公平性约束的单调子模函数最大化问题。
- 基于统计学视角的 Coreset 密度估计
该研究通过对 coresets 的研究,建立了一个统计框架,分析了非参数密度估计等任务的最小最大估计率,并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。
- 非自适应自适应抽样的转门流
该研究提出了一种适应性采样算法,能够在单处理器计算中对数据进行概括,同时提供了一种在旋门流数据上执行的采样算法,同时进行了容器选择、子空间逼近、投影聚类和体积最大化等各种类型的数据概括算法。
- 解决大规模数据模型中的公平 k 中心问题
本文介绍了一项新的流式和分布式算法,用于公平的数据汇总,旨在解决算法公平性方面的研究问题。
- 用最具信息量的项集简洁地总结数据
本文提出了一种基于最大熵模型的算法 MTV,该算法采用迭代更新的方式发现给定数据中最丰富的项目集合,从而构建出简洁但非冗余的数据摘要,并通过实验证明其有效性。
- 用于缩放子模块优化大规模问题的记忆化框架
使用预计算复杂性模型和记忆化的方式来优化大规模子模量优化问题,该方法在许多约束和非约束的子模量最大化,最小化,差异最小化问题中都适用,且在数据子集选择和摘要方面表现出了明显的加速效果。
- 数据汇总的公平 k-Center 聚类
本文研究数据汇总的公平性约束下的原型选择问题,提出了一种运行时间线性的近似算法,该算法对于少数人群,只会带来常数因子的开销。
- 利用 Fisher 核解释黑盒预测
通过使用 Fisher kernels 和 SBQ 算法,我们提出了一种新的方法来解释黑盒机器学习模型,其可以无限制地处理任何大小的测试数据,包括清理训练数据,修复错误标记的示例和数据总结。
- 大规模数据概括:一种两阶段次模方法
本文介绍了一种基于子模性的数据集成简化技术,并提出了适用于大规模数据集的流式处理和分布式处理算法。实验表明,此技术在图像摘要和共享出行优化等实际任务中有较高的效率和实用性。
- 可微子模最大化
本文提出一种针对子模函数的数据学习算法,可用于数据概括、特征选择和主动学习等机器学习领域。通过将贪婪最大化算法的输出解释为项目序列的分布,本文提出一种可微的方式对模型进行优化。实证研究表明,该方法对解决实际场景中的推荐和图像概括等问题有较好 - 公正和多样化的基于 DPP 的数据概述
通过加入公平性约束条件,该文章提出了一种基于确定性多元分布的方法,并且使用了快速的抽样算法以产出多样化且公平的数据子集。
- 一次性核心集:k - 聚类的情形
本文介绍了一种构建用于 k 聚类问题的一次性数据汇总摘要的有效算法,从而同时为范围广泛的聚类问题构建小型数据摘要且具备强有力的理论保证。
- NIPS基于分区阈值算法的流式鲁棒次模最大化
本文研究在流式场景下,求解具有基数限制 k 的单调子模函数最大化问题,提出了一种基于 STAR-T 算法的新型分区结构和指数递减阈值规则,这种算法只需要一次遍历数据,即可保留简短而健壮的总结性概括,还证明了在删除汇总得到的任何 m 个元素后 - KDD基于轻量级核心集的可扩展 k 均值聚类
提出了一种轻量级 coresets 算法,用于 k-means 聚类和 Bregman 聚类,能同时允许乘性和加性误差,在计算效率和结果集大小方面优于现有方法,并可用于统计 k-means 聚类的计算小型模型的摘要。
- 滑动窗口上的次模优化
本文在数据流的上下文中,提供了一种基于滑动窗口模型的次模优化的近似算法,该算法维护了一个解决方案,考虑的仅是最后 $W$ 个元素,使用空间多项式对元素值的传播速度的对数级别,线性大小的解决方案,并保持高品质的解,实际表现远超理论界限。
- 简洁有效:使用多元模式总结复杂事件序列
本文研究了如何利用富有多变量的序列模式获得离散多元序列数据的简明描述,并通过最小描述长度原则提出了一种高效的算法 DITTO,能够快速而准确地发现数据的高质量模式,从而提供了一个易于理解的数据总结。
- AAAI懒惰比贪心更懒惰
本文提出了一种线性时间算法 STOCHASTIC-GREEDY 用于求解一般性单调子模函数最大化问题,旨在实现对数据的概括,比传统算法 lazy greedy 更快且表现基本一致。