测试向量模型加权技术的不同对数基数
文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
Aug, 2023
本文提出了一种 TF-IDF 方法的扩展,其中考虑了同义词,实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。
Nov, 2022
本研究比较了统计和基于图形的术语加权方法,揭示了较少知名的词汇特异性相对于 tf-idf 的优势,以及统计和基于图形方法之间的定性差异,并提出了有关从业人员的建议。
Apr, 2021
研究使用基于加权单词向量的模型,并使用多种分类器进行集成,以在影评数据集上提高 1.6%的性能,并在 Amazon 产品评论中提高 7.01%的性能,其中 tf-idf 等方法可以显着提高先前技术水平。
Dec, 2015
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与 STS 系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
在这篇论文中,我们探索了一种低资源替代方法,即基于词嵌入的文档检索模型,发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明,将 TF-IDF(传统的关键词匹配方法)与浅层嵌入模型简单组合,提供了一种低成本的方法,使其在 3 个数据集上与复杂的神经排序模型的性能相媲美。此外,添加 TF-IDF 度量改进了这些任务上大规模微调模型的性能。
Aug, 2023
基于 TF-IDF 算法和 n-gram 方法在乌兹别克语文本摘要任务中,本研究旨在提取语义重要的部分。学校语料库的实验结果表明,该方法能够有效地从乌兹别克语文本中提取出摘要,并且在信息检索和自然语言处理等多种应用中具有潜在价值。
Mar, 2023
提供一种使用词向量嵌入表示整个文档的有效方法,通过将文档和查询表示为单词向量集,使用单词集中每个单词对之间的相似性来计算标准相似性度量,提高 TREC 自适应数据集中的平均精确度。
Jun, 2016
提出一种基于信息熵的新量度 troenpy 并给出其用于文本分类的权重方案 PCF;提出了期望类信息偏差 (ECIB) 特征,可以用于逻辑回归模型中,实验结果表明这些新方法能显著提高性能。
Apr, 2023