测试向量模型加权技术的不同对数基数

Jul, 2023

测试向量模型加权技术的不同对数基数

Testing different Log Bases For Vector Model Weighting Technique

Kamel Assaf

TL;DR本文通过采用范围为 0.1 至 100.0 的对数底数测试权重技术，测试不同权重值下系统的性能，以此突出了解系统在不同权重值下的性能的重要性。

Abstract

information retrieval systems retrieves relevant documents based on a query submitted by the user. The documents are initially indexed and the words in the documents are assigned weights using a weighting technique

information retrieval systems tfidf weighting technique log bases vector model

发现论文，激发创造

TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析

文本分类与特征加权方法，包括 N-Grams 和 TF-IDF，使用随机森林分类器实现最高的准确度（93.81%），精确度（94.20%），召回率（93.81%）和 F1-score（91.99%）值。

Aug, 2023

考虑同义词的哈萨克语文本文档相似度测量方法：扩展到 TF-IDF

本文提出了一种 TF-IDF 方法的扩展，其中考虑了同义词，实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。

Nov, 2022

回归基础：计量分析统计和基于图的术语加权方案对关键词提取的影响

本研究比较了统计和基于图形的术语加权方法，揭示了较少知名的词汇特异性相对于 tf-idf 的优势，以及统计和基于图形方法之间的定性差异，并提出了有关从业人员的建议。

Apr, 2021

单词不平等：适用于构建组合文档向量的分级加权模型

研究使用基于加权单词向量的模型，并使用多种分类器进行集成，以在影评数据集上提高 1.6％的性能，并在 Amazon 产品评论中提高 7.01％的性能，其中 tf-idf 等方法可以显着提高先前技术水平。

Dec, 2015

无监督句子表示作为词语信息系列：重访 TF-IDF

本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法，通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重，选择不同的超参得出短期训练、在线推理的句子表示，经过与 STS 系统的对比表明，该方法在语义文本相似度模型中的表现已达到最优。

Oct, 2017

运用传统信息检索方法提升神经排序模型

在这篇论文中，我们探索了一种低资源替代方法，即基于词嵌入的文档检索模型，发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明，将 TF-IDF（传统的关键词匹配方法）与浅层嵌入模型简单组合，提供了一种低成本的方法，使其在 3 个数据集上与复杂的神经排序模型的性能相媲美。此外，添加 TF-IDF 度量改进了这些任务上大规模微调模型的性能。

Aug, 2023

基于 TF-IDF 的乌兹别克语文本摘要

基于 TF-IDF 算法和 n-gram 方法在乌兹别克语文本摘要任务中，本研究旨在提取语义重要的部分。学校语料库的实验结果表明，该方法能够有效地从乌兹别克语文本中提取出摘要，并且在信息检索和自然语言处理等多种应用中具有潜在价值。

Mar, 2023

将文档和查询表示为嵌入词向量集以进行信息检索

提供一种使用词向量嵌入表示整个文档的有效方法，通过将文档和查询表示为单词向量集，使用单词集中每个单词对之间的相似性来计算标准相似性度量，提高 TREC 自适应数据集中的平均精确度。

Jun, 2016

一种新的 Shannon 信息对偶和加权方案

提出一种基于信息熵的新量度 troenpy 并给出其用于文本分类的权重方案 PCF；提出了期望类信息偏差 (ECIB) 特征，可以用于逻辑回归模型中，实验结果表明这些新方法能显著提高性能。

Apr, 2023

使用 TF-IDF 标签集匹配扩展神经关键字提取

本文介绍了一种基于神经网络等新方法提取关键词的技术，在欧洲新闻媒体产业中的应用展示出了相当不错的实用效果。

Jan, 2021