使用 Subword TF-IDF 进行多语言搜索

Sep, 2022

Multilingual Search with Subword TF-IDF

Artit Wangperawong

TL;DR采用子词标记化方法可以实现多语言检索，采用 STF-IDF 方法可以在不依赖启发式预处理的情况下提高信息检索精度，Text2Text 软件开源，可用于多种语言的信息检索。

Abstract

multilingual search can be achieved with subword tokenization. The accuracy of traditional TF-IDF approaches depend on manually curated tokenization, stop words and stemming rules, whereas subword TF-IDF (

multilingual search subword tokenization stf-idf information retrieval accuracy text2text

发现论文，激发创造

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

多语种去重策略：应用可扩展相似度搜索与单语和多语嵌入模型

本文介绍了使用先进的 NLP 工具对多语种文本数据进行去重的方法。我们比较了一个包括翻译为英文后嵌入 mpnet 的两步方法和一个多语种嵌入模型 (distiluse)。两步方法在 F1 得分方面表现更好 (82% vs. 60%)，特别是在较少使用的语言上，可以通过利用基于领域知识的专家规则将其提高至 89%。我们还强调了与标记长度限制和计算效率相关的局限性。我们的方法对未来的多语种去重任务提出了改进建议。

Jun, 2024

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

无监督句子表示作为词语信息系列：重访 TF-IDF

本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法，通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重，选择不同的超参得出短期训练、在线推理的句子表示，经过与 STS 系统的对比表明，该方法在语义文本相似度模型中的表现已达到最优。

Oct, 2017

考虑同义词的哈萨克语文本文档相似度测量方法：扩展到 TF-IDF

本文提出了一种 TF-IDF 方法的扩展，其中考虑了同义词，实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。

Nov, 2022

TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析

文本分类与特征加权方法，包括 N-Grams 和 TF-IDF，使用随机森林分类器实现最高的准确度（93.81%），精确度（94.20%），召回率（93.81%）和 F1-score（91.99%）值。

Aug, 2023

一种无需词汇表的多语言神经标记器，用于端到端任务学习

本文提出了一种无需词汇表的神经分词器，通过处理多语言语料库中的独特单词来预训练基于字符的分词器，从而广泛增加语言间的单词多样性，进而克服了子词分词存在的一些问题，如无法进行端到端任务学习，适应性不足，以及在低资源语言中表现欠佳等，实验证明该神经分词器能显著提升多语言（NLI）和混合语言情感分析等任务的性能并且具有较强的鲁棒性。

Apr, 2022

改进文本分析和信息检索的 TF-IDF 方法下的马拉地语停用词筛选

我们研究了停用词在马拉地语中的应用，使用 MahaCorpus 数据集中的 2400 万个句子，结合 TF-IDF 方法和人工评估，筛选出具有强大效果的 400 个停用词，并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中，并在此 https URL 上公开提供。

Jun, 2024

多语言翻译中的子词和跨语言转移的系统分析

此研究探讨了子词切分在跨语言迁移中的作用，发现子词规范化提高了多语言建模的协同效应，而 BPE 在跨语言微调中更有效地促进了迁移，在子词建模方面的决策对于优化多语言建模的好处至关重要。

Mar, 2024

使用 TF-IDF 标签集匹配扩展神经关键字提取

本文介绍了一种基于神经网络等新方法提取关键词的技术，在欧洲新闻媒体产业中的应用展示出了相当不错的实用效果。

Jan, 2021