May, 2023

一种无监督数据集类分离度估计方法及其在 LLMs 微调中的应用

TL;DR本文提出一种基于拓扑特征的无监督方法来预测数据的类别可分性,该方法适合于处理有限标注数据和大规模未标注数据的学习模型。通过实验证明,该方法与有监督的评估方法如 Fisher 判别比率和分类器的交叉验证有着一致的表现,可以有效地用于语言模型的 fine-tuning,并监控词向量空间中的嵌入流形,从而判断何时停止或继续 fine-tuning。