使用 Subword TF-IDF 进行多语言搜索
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
本文介绍了使用先进的 NLP 工具对多语种文本数据进行去重的方法。我们比较了一个包括翻译为英文后嵌入 mpnet 的两步方法和一个多语种嵌入模型 (distiluse)。两步方法在 F1 得分方面表现更好 (82% vs. 60%),特别是在较少使用的语言上,可以通过利用基于领域知识的专家规则将其提高至 89%。我们还强调了与标记长度限制和计算效率相关的局限性。我们的方法对未来的多语种去重任务提出了改进建议。
Jun, 2024
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。
Oct, 2020
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过 TF-IDF 变换提供的 Shannon 词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与 STS 系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
本文提出了一种 TF-IDF 方法的扩展,其中考虑了同义词,实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。
Nov, 2022
文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
Aug, 2023
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
Apr, 2022
我们研究了停用词在马拉地语中的应用,使用 MahaCorpus 数据集中的 2400 万个句子,结合 TF-IDF 方法和人工评估,筛选出具有强大效果的 400 个停用词,并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中,并在此 https URL 上公开提供。
Jun, 2024
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
Mar, 2024