一种无监督数据集类分离度估计方法及其在 LLMs 微调中的应用

May, 2023

一种无监督数据集类分离度估计方法及其在 LLMs 微调中的应用

An Unsupervised Method for Estimating Class Separability of Datasets with Application to LLMs Fine-Tuning

Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime Labonne...

TL;DR本文提出一种基于拓扑特征的无监督方法来预测数据的类别可分性，该方法适合于处理有限标注数据和大规模未标注数据的学习模型。通过实验证明，该方法与有监督的评估方法如 Fisher 判别比率和分类器的交叉验证有着一致的表现，可以有效地用于语言模型的 fine-tuning，并监控词向量空间中的嵌入流形，从而判断何时停止或继续 fine-tuning。

Abstract

This paper proposes an unsupervised method that leverages topological characteristics of data manifolds to estimate class separability of the data without requiring labels. Experiments conducted in this paper on

unsupervised method class separability topological characteristics semi-supervised learning language model fine-tuning

发现论文，激发创造

判别式流形传播的无监督域适应

提出了一种基于黎曼流形学习的概率判别标准，用于使用软标签在目标域上实现可转移性和可区分性，该方法可以处理许多不同的领域自适应问题，并通过大量实验展示出优越性。

Aug, 2020

基于判别流形嵌入和对齐的无监督领域自适应

该论文提出了一种使用 Riemannian 流形学习框架实现无监督域自适应的方法，通过软标签建立目标域上的概率判别准则，并将其扩展为全局逼近方案，利用流形度量对齐与嵌入空间兼容，同时导出理论误差界限，实现转移性和区分性的一致性，实验结果表明所提出的流形学习框架具有优越性。

Feb, 2020

通过流形拓扑评估深度生成模型的解缠结性

本文提出了一种利用生成模型度量解缕编表示的方法。通过量化学习表示中条件子流形的拓扑相似性，该方法不依赖于外部模型或特定数据集即可测量解缕编程度。我们通过多个数据集上的实验表明了该方法的有效性和适用性，发现与现有方法相比，该方法能够很好地对模型进行排序。

Jun, 2020

多变体划分混合：一种用于严重标签噪声的半监督对比学习框架

本文提出了一种基于自监督训练的方法，通过利用所有训练数据的信息，为每个样本提取有意义且可泛化的嵌入空间，从而去除 out-of-distribution 样本，并使用迭代的 Manifold DivideMix 算法找到干净和有噪音的样本，以半监督的方式训练模型。此外，我们还提出了一种名为 MixEMatch 的半监督算法，其中包括在模型的输入和最终隐藏表示中进行 mixup 增强，通过在输入和流形空间进行插值提取更好的表示。对多个合成噪声图像基准和真实世界的网络爬取数据集进行的广泛实验证明了我们提出的框架的有效性。代码可在此 https URL 找到。

Aug, 2023

流形挖掘：无标签度量学习

该研究提出了一种无监督框架，用于针对性地寻找训练样例。该方法仅需要一组与目标应用程序相关的图像和有效的初始表示，其中正样例是单个流形上的远点，而负样例是不同流形上的相邻点。这种方法可应用于预训练网络的无监督微调，用于细粒度分类和特定物体检索。与之前的完全或部分有监督的模型相比，我们的模型表现出相似或更好的性能。

Mar, 2018

非线性流形学习的无监督异常检测

介绍了一种基于非线性流形学习的方法，利用潜在映射高斯过程或深度自编码器来检测无监督设置下的异常值，具有更好的性能。

Jun, 2023

通过流形逼近和投影实现的无监督句子嵌入

该研究提出了一种名为 EMAP 的新技术，通过将句子投射到一个固定维度的流形上，以保留原始空间中的局部邻域来无监督地生成句子嵌入，可以用于文本分类，实验证明该方法性能优于其他最先进方法。

Feb, 2021

Fisher 判别子空间中的模型聚类与可视化

本文介绍了一种判别潜在混合模型（DLM）和一种估计算法 Fisher-EM 算法，可用于高维数据空间中的聚类，其结果优于现有的聚类方法，可以用于质谱数据聚类

Jan, 2011

利用流形先验在模型训练中融入远程学习

本研究提出了 Distance Learner 方法，利用 “流形假设” 作为先验知识，对于 DNN-based 分类器进行训练，结果表明 Distance Learner 相比标准分类器学习到更有意义的分类边界，并且在对抗鲁棒性任务中表现出色。

Jul, 2022

低密度分离假设下监督学习和无监督学习之间的随机矩阵分析

我们提出了一个理论框架，用于分析高维情况下基于低密度分离假设的半监督分类。我们介绍了 QLDS，一个线性分类模型，其中低密度分离假设通过二次边界最大化来实现。该算法具有显式解和丰富的理论性质，我们证明了我们算法的特殊情况是有监督情况下的最小二乘支持向量机，完全非监督情况下的谱聚类以及一类半监督图方法。因此，QLDS 在这些有监督和无监督学习方法之间建立了一个平滑的桥梁。利用随机矩阵理论的最新进展，我们正式推导了在渐近情况下的分类误差的理论评估。作为应用，我们得出一个超参数选择策略，找到在我们学习准则的有监督项和无监督项之间的最佳平衡。最后，我们提供了我们框架的广泛示例，以及在几个基准测试上的实验研究，证明了 QLDS 在计算效率更高的同时，在超参数选择上优于交叉验证，表明随机矩阵理论在半监督模型选择中具有很大的潜力。

Oct, 2023