- 基于分类模型的面向学习的 DLP 系统
该研究论文提出了一种统计数据泄漏预防模型,利用统计分析、文档分类以及机器学习等方法,采用 TF-IDF(词频 - 逆文档频率)等流行的术语计数 / 权重函数,引入了 IGBCA(改进的梯度提升分类算法)作为一种高效精确的文档分类方法,可防止 - 反讽和刻板形象的画像:探索情感、主题和词汇特征
通过词汇特征和 TF-IDF,在 Twitter 用户中检测到具有讽刺意味的信息,并通过特征选择和模型构建达到 F1 得分 0.84 以上。
- 运用传统信息检索方法提升神经排序模型
在这篇论文中,我们探索了一种低资源替代方法,即基于词嵌入的文档检索模型,发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明,将 TF-IDF(传统的关键词匹配方法)与浅层嵌入模型简单组合,提供 - TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析
文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
- 文本向量化器的鲁棒性
本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案(如拼接、TF-IDF 和段落向量)的形式化证明,发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了 - 考虑同义词的哈萨克语文本文档相似度测量方法:扩展到 TF-IDF
本文提出了一种 TF-IDF 方法的扩展,其中考虑了同义词,实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。
- Shadfa 0.1: 伊朗电影知识图谱及基于图嵌入的推荐系统
本文提出了一种组合了 TF-IDF 和 KGE 的加权内容推荐系统,用于嵌入文本数据和命名实体。通过复合方法,还使用从电影相关网站爬取的数据集和 FarsBase KG 的结构来构建 MovieFarsBase KG,该方法明显优于传统的 - 电力推特情感分析
通过 Twitter 上用户表达的情感,使用 TF-IDF 方法在英国和印度的数据集上分析了电力价格的影响,并使用朴素贝叶斯,决策树,随机森林,逻辑回归四种分类算法分析其性能以及准确度、精确度等参数。
- 使用自然语言处理技术的乌尔都语新闻文章推荐模型
提出一种可以预测用户兴趣的乌尔都语新闻推荐框架,使用了 NLP 技术的预处理和 TF-IDF 和余弦相似度计算,利用 BERT 语言模型相似性提高了系统推荐性能。当文章相似性超过 60%时,系统会向用户推荐相关新闻。
- ExMo:使用反频率决策规则的可解释人工智能模型
本文提出了一种新的计算决策规则来构建更精确可解释机器学习模型的方法,称为 ExMo,使用了文本特征提取的方法来提取与各类别相关性更高的决策规则,并验证了 ExMo 在欺诈检测等领域的高精度表现,比 BRL 算法精度高 20%。
- BFCAI 在 SemEval-2022 任务 6 中的表现:用多层感知器检测阿拉伯文本中的讽刺
本文介绍了 iSarcasm 共享任务中提交的系统。我们参加了针对阿拉伯语的 iSarcasm。我们提交了一个基于多层机器学习的模型,用作阿拉伯语讽刺检测。该模型使用向量空间 TF-IDF 表示特征,系统简单,不需要任何外部资源。测试结果表 - BERTopic: 一种基于类别的 TF-IDF 过程的神经主题建模方法
BERTopic 是一种主题模型,通过 BERT 语言模型生成文档嵌入,并利用 TF-IDF 进行聚类和生成主题,具有较高的性能。
- WWW基于类别判别剪枝的联邦遗忘
本文研究了在联邦学习中,通过实现 Term Frequency Inverse Document Frequency (TF-IDF) 对不同分类通道进行量化刻画,进而实现非对称遗忘(category forgetting)的目的,而不需要 - ICML重新评估词移距离
本文讨论了词移距离(WMD)及其与传统基线方法如词袋(BOW)和 TF-IDF 的比较,指出若使用正确的预处理方法,即 L1 正则化,则传统基线方法与 WMD 具有相近的性能,同时发现 WMD 与 L1 正则化 BOW 之间存在类比关系。
- ACL使用 TF-IDF 标签集匹配扩展神经关键字提取
本文介绍了一种基于神经网络等新方法提取关键词的技术,在欧洲新闻媒体产业中的应用展示出了相当不错的实用效果。
- COLING细节藏恶魔:评估基于 Transformer 的方法在细粒度任务中的局限性
该文探讨了基于 transformer 的神经语言模型生成的上下文嵌入在文本相似度问题上的表现,针对不同粒度上的文本匹配任务,发现相较于简单的基准算法 TF-IDF,该模型在细颗粒度上的匹配任务表现欠佳,提出了一种简单而有效的方法,即将 T - 单词不平等:适用于构建组合文档向量的分级加权模型
研究使用基于加权单词向量的模型,并使用多种分类器进行集成,以在影评数据集上提高 1.6%的性能,并在 Amazon 产品评论中提高 7.01%的性能,其中 tf-idf 等方法可以显着提高先前技术水平。
- 使用本体论和启发式方法进行食品推荐
本文采用自适应超媒体框架,结合 TF-IDF 术语提取方法和余弦相似度测量方法,利用健康启发式和标准食品数据库建立知识库,提出了基于语义推荐系统的食品个性化框架,评估得出,与传统的推荐系统相比,基于语义推荐系统在准确性、精确性和召回率方面表