TK-KNN:一种平衡的基于距离的伪标签半监督意图分类方法
Minimax-kNN 是一种高效的数据增强策略,基于知识蒸馏的半监督学习方法来训练模型,并且利用 KL-divergence 选择最有效的样本,以实现最大限度地覆盖输入空间中具有最大损失值的区域。该方法在多个文本分类任务中得到了验证,明显优于强基线模型,所需增强样本更少,计算量更小。
May, 2021
本文提出了一种混合粒度的中文 BERT 模型(MigBERT),通过同时考虑字符和词,设计了学习字符和单词级表示的目标函数,在各种中文 NLP 任务上获得了新的 SOTA 性能,实验结果表明,单词语义比字符更丰富,而 MigBERT 也适用于日语。
Mar, 2023
该研究提出了一种增强的、基于加权的正则化 KNN 双支持向量机,通过加权样本、增加稳定项和结合多距离 KNN 算法来解决 KNN-based TSVM 分类器的高计算成本和过拟合等问题,实验结果表明在分类准确度和计算时间上均有显著提高,最大加速比可达 14 倍。
Jun, 2019
本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题,通过将 k-NN 算法与深度学习结合,提出了一种名为 DkNN 的混合分类器,它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明,DkNN 算法可以准确识别模型外部的输入,同时提供直观和有用的模型失败解释。
Mar, 2018
使用 kNN 表示法来解释 NLP 模型的预测结果,发现其除了具有解释性外,还能揭示学习到的虚假关联,发现存在错误标记的例子,并提高模型的性能和抵御对抗攻击的能力。
Oct, 2020
本文研究了半监督图分类问题及其解决方法的一种 KGNN 模型,在该模型中,图神经网络(GNN)结合基于内存的核网络进行分类,通过学习图表示并使用图内核来有效地使用标记的图和未标记的图。实验证明,KGNN 比竞争基线方法表现出更好的性能。
May, 2022
通过引入一种名为 “bias-kNN” 的新方法,利用有偏差的输出作为 kNN 的主要特征并补充金标签,从而提高大语言模型中的模型性能。
Jan, 2024
深度神经网络中的可信预测对于现实世界中的安全关键应用至关重要。本研究提出了 $k$ 最近邻不确定性估计方法,通过邻居之间的距离和邻居的标签存在比例来提高置信度和预测效果,并在情感分析、自然语言推理和命名实体识别方面表现出色。
Jul, 2024
我们提出了一种方法,用于证明广泛使用的监督学习算法 k 最近邻(KNN)的分类结果的公平性,假设训练数据可能存在由于对受保护的少数群体的样本进行系统性错误标记而导致的历史偏差。首次基于个体公平性、ε- 公平性和标签翻转公平性三个公平定义的 KNN 公平性认证方法。我们首先定义了 KNN 的公平性认证问题,然后提出了用于复杂算术计算的声音近似方法,该方法用于最先进的 KNN 算法中,旨在将计算结果从具体域提升到抽象域以减少计算成本。通过对在公平性研究文献中广泛使用的六个数据集进行实验评估,我们展示了这种基于抽象解释的技术的有效性。我们还展示了尽管数据集中存在历史偏差,但该方法足够准确以获取大量测试输入的公平性认证。
Jul, 2023