使用线性相似函数扩展主动搜索

IJCAIApr, 2017

Scaling Active Search using Linear Similarity Functions

Sibi Venkatesan, James K. Miller, Jeff Schneider, Artur Dubrawski

TL;DR本文考虑利用 Wang 等人（2013）的算法对图进行主动搜索，通过在数据上的相似函数来最小化图上的能量函数以选择点，并且提出了一些关键修改，使其能够跨大规模数据集进行扩展，并实现了与现有半监督方法相竞争的实验结果。

Abstract

active search has become an increasingly useful tool in information retrieval problems where the goal is to discover as many target elements as possible using only limited label queries. With the advent of

active search information retrieval big data scalability semi-supervised

发现论文，激发创造

近似正交基函数族主动学习的查询复杂度

通过理论证明，我们提出了一种近正交基函数类及与之相关的算法，证明了主动学习算法不需要正交基，只需近乎正交基即可，从而减少标记数据的数量，并提高机器学习性能。

Jun, 2023

相似性搜索的快速谱排序

本研究介绍了一种显式嵌入方法，将流形搜索转化为欧氏距离搜索，并且利用近似傅里叶基础加速在线搜索，从而提高了特定对象的检索精度和效率。

Mar, 2017

主动聚类：使用自适应选择的相似性进行健壮高效的分层聚类

本文研究基于少量配对相似性进行层次聚类的方法，证明如果簇内相似性超过簇间相似性，则可正确确定层次聚类，提出一种自适应聚类方法并解决了具有噪声相似度值的情况。

Feb, 2011

主动学习在层次聚类中的应用

本研究通过对树叶对之间的相似度进行主动学习，研究树的层次聚类过程。在实现的情况下，我们提供了完全重构树切割所需的查询数量的完整特征描述。在非实现的情况下，我们依赖于已知的重要抽样过程来获得后悔和查询复杂度界限。我们的算法具有对统计误差的理论保证，并且更重要的是，在问题的相关参数的情况下，它们自身具有线性时间实现的可行性。我们讨论了这样的实现，证明了它们的运行时间保证，并展示了对真实数据集的初步实验结果，表明与被动学习和简单主动学习基线相比，我们的算法具有强大的实用性能。

Jun, 2019

高维稀疏数据的相似性学习

该研究提出了一种使用参数化相似性度量的方法，将其作为具有特定稀疏结构的秩一矩阵的线性组合，此方法可以高效地处理高维稀疏数据，并通过近似的 Frank-Wolfe 过程优化参数以满足训练数据上的相对相似性约束，实验结果表明该方法具有分类、降维和数据探索的潜力。

Nov, 2014

主动相关聚类的有效获取函数

本文研究了相关聚类中使用主动学习来查询相似性的有效获取函数，并提出了三种基于不一致性、熵和信息增益的获取函数。

Feb, 2024

基于次模信息度量的现实场景主动学习

提出了 SIMILAR (Submodular Information Measures based actIve LeARning)—— 利用最近提出的子模信息度量 (SIM) 作为获取函数的统一主动学习框架，既能在标准主动学习中工作，也可以轻松扩展到考虑上述实际情况，并作为可伸缩到大型实际数据集的主动学习一站式解决方案。

Jul, 2021

稀疏线性分类的可证明准确性相似度学习

本文介绍一种基于非半正定线性相似性的学习算法，用于分类，该算法能够通过最优化距离和相似度函数来在非线性特征空间中学习，该方法得到应用后，在各种数据集上比起现有方法具有更好的效果，而且速度快、防止过拟合和产生非常稀疏的分类器。

Jun, 2012

线性成本下的度量和非度量近似变换

本文提出了一种将大规模非度量差异矩阵转换为近似正半定核矩阵的有效而准确的技术，该技术结合了 Nystroem 逼近、潜在双中心化和特征值修正，并在几个大规模差异数据集上进行了实验。

Nov, 2014

使用比较查询进行主动分类

研究一种扩展主动学习的方法，其中学习算法可以要求注释者比较两个示例与其标签类边界的距离，并使用半空间的框架展示这种方法的优越性。

Apr, 2017