TK-KNN：一种平衡的基于距离的伪标签半监督意图分类方法

Oct, 2023

TK-KNN：一种平衡的基于距离的伪标签半监督意图分类方法

TK-KNN: A Balanced Distance-Based Pseudo Labeling Approach for Semi-Supervised Intent Classification

Nicholas Botzer, David Vasquez, Tim Weninger, Issam Laradji

TL;DR该研究描述了一种更强大的伪标签方法，使用基于嵌入空间距离的 TK-KNN 方法，在保持平衡的伪标记样本集的同时，避免了选择不平衡的示例集合，从而在意图检测中取得了更好的性能。

Abstract

The ability to detect intent in dialogue systems has become increasingly important in modern technology. These systems often generate a large amount of unlabeled data, and manually labeling this data requires substantial human effort. →

dialogue systems intent detection semi-supervised methods pseudo-labeling top-k k-nearest neighbor

发现论文，激发创造

不远不近：通过 MiniMax 实现高样本效率的最近邻数据增强

Minimax-kNN 是一种高效的数据增强策略，基于知识蒸馏的半监督学习方法来训练模型，并且利用 KL-divergence 选择最有效的样本，以实现最大限度地覆盖输入空间中具有最大损失值的区域。该方法在多个文本分类任务中得到了验证，明显优于强基线模型，所需增强样本更少，计算量更小。

May, 2021

带检索的分类方法及其解耦表示

本文提出了一种混合粒度的中文 BERT 模型（MigBERT），通过同时考虑字符和词，设计了学习字符和单词级表示的目标函数，在各种中文 NLP 任务上获得了新的 SOTA 性能，实验结果表明，单词语义比字符更丰富，而 MigBERT 也适用于日语。

Mar, 2023

具有稳定学习规则的增强型 KNN 双支持向量机

该研究提出了一种增强的、基于加权的正则化 KNN 双支持向量机，通过加权样本、增加稳定项和结合多距离 KNN 算法来解决 KNN-based TSVM 分类器的高计算成本和过拟合等问题，实验结果表明在分类准确度和计算时间上均有显著提高，最大加速比可达 14 倍。

Jun, 2019

深度 k 近邻：朝着自信、可解释和鲁棒的深度学习发展

本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题，通过将 k-NN 算法与深度学习结合，提出了一种名为 DkNN 的混合分类器，它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明，DkNN 算法可以准确识别模型外部的输入，同时提供直观和有用的模型失败解释。

Mar, 2018

最近邻抵抗随机噪声标签

通过研究在随机噪声情况下的 k - 最近邻（k-NN）一致性，提出了一种鲁棒的 k-NN 方法 (RkNN)，在处理噪声标签时具有一定的纠错和分类能力。

Jul, 2016

利用 k 近邻表示解释和改善模型行为

使用 kNN 表示法来解释 NLP 模型的预测结果，发现其除了具有解释性外，还能揭示学习到的虚假关联，发现存在错误标记的例子，并提高模型的性能和抵御对抗攻击的能力。

Oct, 2020

KGNN：基于核网络的半监督图分类

本文研究了半监督图分类问题及其解决方法的一种 KGNN 模型，在该模型中，图神经网络（GNN）结合基于内存的核网络进行分类，通过学习图表示并使用图内核来有效地使用标记的图和未标记的图。实验证明，KGNN 比竞争基线方法表现出更好的性能。

May, 2022

利用大型语言模型中的偏差：针对高效少样本学习的 “偏差 - kNN

通过引入一种名为 “bias-kNN” 的新方法，利用有偏差的输出作为 kNN 的主要特征并补充金标签，从而提高大语言模型中的模型性能。

Jan, 2024

基于最近邻的高效自然语言处理任务不确定性估计

深度神经网络中的可信预测对于现实世界中的安全关键应用至关重要。本研究提出了 $k$ 最近邻不确定性估计方法，通过邻居之间的距离和邻居的标签存在比例来提高置信度和预测效果，并在情感分析、自然语言推理和命名实体识别方面表现出色。

Jul, 2024

证明 KNN 在数据集偏见存在下的公正性

我们提出了一种方法，用于证明广泛使用的监督学习算法 k 最近邻（KNN）的分类结果的公平性，假设训练数据可能存在由于对受保护的少数群体的样本进行系统性错误标记而导致的历史偏差。首次基于个体公平性、ε- 公平性和标签翻转公平性三个公平定义的 KNN 公平性认证方法。我们首先定义了 KNN 的公平性认证问题，然后提出了用于复杂算术计算的声音近似方法，该方法用于最先进的 KNN 算法中，旨在将计算结果从具体域提升到抽象域以减少计算成本。通过对在公平性研究文献中广泛使用的六个数据集进行实验评估，我们展示了这种基于抽象解释的技术的有效性。我们还展示了尽管数据集中存在历史偏差，但该方法足够准确以获取大量测试输入的公平性认证。

Jul, 2023