带噪声查询的聚类

Jun, 2017

Clustering with Noisy Queries

Arya Mazumdar, Barna Saha

TL;DR本文研究了带有噪声查询的聚类问题，提供了信息理论下限以及与之匹配的新算法，并介绍了在众包、社交网络和随机块模型中应用的情况。

Abstract

In this paper, we initiate a rigorous theoretical study of clustering with noisy queries (or a faulty oracle). Given a set of $n$ elements

clustering noisy queries oracle information theoretic lower bound crowdsourcing

发现论文，激发创造

半监督聚类的松弛预测

本研究讨论了半监督聚类中 “同簇” 查询的弱监督方法，并提出了一种处理不确定响应的有效算法。实验显示，我们的方法在克服监督不确定性和产生高质量聚类方面非常有效。

Nov, 2017

通过多臂老虎机实现带噪声查询的最优聚类

本文研究了带有错误预言机的聚类问题，利用多臂赌博机算法解决该问题的上下界。

Jul, 2022

具有嘈杂歧义回答的高效查询相关聚类

我们研究了一个通用的聚类环境，其中我们有 $n$ 个要聚类的元素，并且我们的目标是尽量少地通过一个返回两个元素之间相似度的有噪声样本的预言进行查询。我们提出了在组合多臂赌博机的纯探索范式中根源于在线学习问题的两种新颖公式：固定置信度和固定预算设置。对于这两种设置，我们设计了将采样策略与经典的相关聚类近似算法相结合的算法，并研究了它们的理论保证。我们的结果是第一个针对 NP 困难的离线优化问题情况下 PE-CMAB 的多项式时间算法的示例。

Feb, 2024

带侧信息的聚类查询复杂度

研究交互聚类的查询复杂度和相似度矩阵的信息理论下界及上界，证明相似度矩阵可以显著降低查询复杂度，在不知道 $k,f_+ 和 f_-$ 的前提下，算法高效且参数免费，并揭示其与常见社区检测模型的关联。

Jun, 2017

同簇 Oracle 下有限集合划分的容错精确查询学习

本文通过访问同簇 oracle，在有界对手误差的情况下，着手研究仅通过主动学习来精确恢复分区的问题。我们首先强调了学习分区和相关聚类之间的新颖联系。然后，利用这种关联建立了一个 Rényi-Ulam 样式的分析框架，并证明了该问题最坏情况下查询复杂度的上下限。此外，我们还限制了相关随机算法的预期性能。最后，我们研究了该问题及相关变体的适应性和查询复杂度之间的关系。

May, 2023

关于含噪计算的最优界限

本研究重新审视了来自 Feige 等人的 1994 年的噪声信息计算问题，改进其上下界以更好地描述查询复杂性，并考虑了自适应采样和非自适应采样这两种情况。

Jun, 2023

自适应层次聚类使用顺序查询

本文研究使用有序查询主动学习层次聚类，当有噪声存在时，设计了自适应算法，证明了在最坏情况下每个非自适应算法需要 Ω（n³）序数查询。

Aug, 2017

使用同簇查询的近似相关聚类

该研究介绍了一种半监督聚类框架及其在相关性聚类问题中的应用，提出了一种有效的近似算法，并给出了同类查询数量的上下界。

Dec, 2017

使用同一聚类查询的近似聚类

本文提出了一种半监督主动聚类框架 (SSAC)，通过进行少量的相同聚类查询，可以在多项式时间内解决 K-means 聚类问题，而且算法不需要边界假设。

Apr, 2017

查询 K 均值聚类和双 Dixie 杯问题

本研究提出了基于同类簇查询与有噪音答案的方法，解决了离群点存在情况下的近似 K-means 聚类优化问题，证明了在一定条件下可以以大概率获得最优潜在解的 (1+ε）近似解，并且比目前已知的方法减少了同类簇查询数量。这种方法也推广到了控制噪音、离群点的场景中，同时在人造数据集和真实数据集上进行了测试。

Jun, 2018