- WSDMPEFA:大规模基于嵌入的检索模型的无参适配器
基于嵌入的检索模型 (ERMs) 在大规模文本检索问题中作为一个有前途的框架出现,但是由于数据的规模庞大以及多阶段流水线(如预训练、微调、蒸馏)的复杂性,调整 ERMs 达到最先进的结果成本较高。在这篇论文中,我们提出了 PEFA 框架,即 - 生成模型的可靠评估中的概率精确度和召回率
评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此,最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法,将统计距离细分为忠实度和多样性。然而,我们对这些度量方法进行了深入分析,发现了 k 近邻算法的过于简化的假设和 - 消除工业异常检测中的表示偏差
通过考虑预训练模型的领域偏差,建立自我监督学习任务以实现更好的领域适应性,并采用缺陷生成策略来减少偏差,在局部密度 KNN(LDKNN)中减少局部密度偏差以实现有效的异常检测。在常用的 MVTec AD 基准测试中,获得了 99.5% 的 - 应用机器学习辅助模式识别算法估算熔覆沉积建模聚乳酸样品的极限拉伸强度
本研究探讨监督机器学习算法在估计使用熔丝沉积建模方法制备的聚乳酸试样的极限拉伸强度方面的应用,结果表明 KNN 算法在分类任务中表现最好,同时,该研究首次利用机器学习算法估计聚乳酸试样的 UTS,从而为附加制造领域中的预测模型性能和准确性提 - $K$ 最临近重采样在随机控制中的非策略评估
该论文提出了一种新的 K 最近邻重采样程序,用于在具有连续状态 - 动作空间和系统固有随机性的环境中,通过模拟轨迹来解决反事实估计问题,该算法不需要优化,可以通过基于树的最近邻搜索和并行化实现,特别适用于随机控制环境。
- 基于机器学习的医疗保险决策建议系统在尼日利亚的应用
采用基于内容的方法和 KNN 与余弦相似度算法,匹配用户意向和偏好筛选,推荐基于用户位置和价格的最相似的健康管理机构,提高尼日利亚医保参与率。
- 最近邻语言模型为什么有效?
本文探究检索增强语言模型及 k - 最近邻语言模型相较于传统参数化语言模型进行下一个单词预测时为何表现更佳的原因,并发现使用不同输入表示、近似最近邻搜索、以及 kNN 分布的 softmax 温度是关键因素,进而将这些启示融入传统语言模型的 - ECCV基于 kNN 的高容量存储图像分类系统的再探讨
本文通过使用外部高容量存储器存储图像特征映射、标签和原始图像的知识,而不是显式存储在模型参数中,来避免增量学习中的灾难性遗忘,并引入 k - 最近邻分类器对其进行分析,实现了在不微调模型参数的前提下,ImageNet 数据集上的 79.8% - 基于贝叶斯过滤技术的基于 RFID 的室内空间查询评估
本研究提出了基于贝叶斯滤波理论的室内数据定位算法和两种跟踪模型(室内步行图模型和锚定点索引模型),以评估采用 RFID 原始数据的室内空间查询,最终验证了方法的有效性和可行性。
- KDD一种形式上健壮的时间序列距离度量
本文提出了一种新的距离度量方法来解决时间序列数据在分类中被任意数据污染的鲁棒性问题,并在 k 近邻时间序列分类中得到了有竞争力的分类精度。
- 噪声标签的深度 k-NN
本文通过实证研究表明,在初步模型的 logit 层上实施简单的 k 近邻过滤方法能够去除错误标记的训练数据,比许多最近提出的方法产生更准确的模型,并提供了新的统计保证。
- 使用 K 最近邻防御对抗性例子
提出了一个基于神经网络中间层激活的 k - 最近邻(kNN)的防御机制来对抗对手样本,该方案在 MNIST 和 CIFAR-10 上的 l2 扰动上超过了最先进的防御措施,我们的模型在 MNIST 上是 3.07,CIFAR-10 为 2. - 深度 K 最近邻模型的鲁棒性
本文探讨了一种结合了 k 最近邻算法和深度学习的模型 - Deep k-Nearest Neighbor(DkNN)来提高模型的抵抗 Adversarial Example 威胁,同时提出了一种基于梯度下降的攻击方法,能够有效地攻击 DkN - SIGIR利用词嵌入进行自动查询扩展
本文提出了一种利用分布式神经语言模型 word2vec 的自动查询扩展(AQE)框架,通过 K 最近邻方法获得查询相关术语,并在标准 TREC ad-hoc 数据上获得显着提高。
- 固定 k 最近邻密度函数估计器的有限样本分析
本研究提出了一个通用的框架,用于使用 k 最近邻算法估计非参数连续概率密度的泛函,包括熵和散度。该框架将多个先前的估计器统一起来,并提供了首个有限样本保证。
- 用于识别带噪声聚类的 k 最近邻图的最优构建
研究基于随机数据点邻域图的聚类算法,探讨构建何种邻域图以获得最优聚类结果,以及该选用何种邻域图和最优参数 k 的疑问,并使用随机几何图理论技术证明在一个无噪声或嘈杂设置中,可以成功识别聚类的概率。
- 基于互信息的最小相关性分析
本文提出使用互信息的精确估算器来找到一个线性混合信号中的最独立的组件。比其他 “独立” 成分分析算法更好的盲源分离并且可用于估计输出之间的残留依赖性,使用最近提出的 k 最近邻算法和延迟嵌入进行时间序列分析,算法已在怀孕女性的心电图数据集上