使用线性相似函数扩展主动搜索
通过理论证明,我们提出了一种近正交基函数类及与之相关的算法,证明了主动学习算法不需要正交基,只需近乎正交基即可,从而减少标记数据的数量,并提高机器学习性能。
Jun, 2023
本文研究基于少量配对相似性进行层次聚类的方法,证明如果簇内相似性超过簇间相似性,则可正确确定层次聚类,提出一种自适应聚类方法并解决了具有噪声相似度值的情况。
Feb, 2011
本研究通过对树叶对之间的相似度进行主动学习,研究树的层次聚类过程。 在实现的情况下,我们提供了完全重构树切割所需的查询数量的完整特征描述。 在非实现的情况下,我们依赖于已知的重要抽样过程来获得后悔和查询复杂度界限。 我们的算法具有对统计误差的理论保证,并且更重要的是,在问题的相关参数的情况下,它们自身具有线性时间实现的可行性。 我们讨论了这样的实现,证明了它们的运行时间保证,并展示了对真实数据集的初步实验结果,表明与被动学习和简单主动学习基线相比,我们的算法具有强大的实用性能。
Jun, 2019
该研究提出了一种使用参数化相似性度量的方法,将其作为具有特定稀疏结构的秩一矩阵的线性组合,此方法可以高效地处理高维稀疏数据,并通过近似的 Frank-Wolfe 过程优化参数以满足训练数据上的相对相似性约束,实验结果表明该方法具有分类、降维和数据探索的潜力。
Nov, 2014
提出了 SIMILAR (Submodular Information Measures based actIve LeARning)—— 利用最近提出的子模信息度量 (SIM) 作为获取函数的统一主动学习框架,既能在标准主动学习中工作,也可以轻松扩展到考虑上述实际情况,并作为可伸缩到大型实际数据集的主动学习一站式解决方案。
Jul, 2021
本文介绍一种基于非半正定线性相似性的学习算法,用于分类,该算法能够通过最优化距离和相似度函数来在非线性特征空间中学习,该方法得到应用后,在各种数据集上比起现有方法具有更好的效果,而且速度快、防止过拟合和产生非常稀疏的分类器。
Jun, 2012
本文提出了一种将大规模非度量差异矩阵转换为近似正半定核矩阵的有效而准确的技术,该技术结合了 Nystroem 逼近、潜在双中心化和特征值修正,并在几个大规模差异数据集上进行了实验。
Nov, 2014