文件相似度算法比较

Apr, 2023

A Comparison of Document Similarity Algorithms

Nicholas Gahman, Vinayak Elangovan

TL;DR本文将比较文本相似度算法的三种类别：统计算法、神经网络以及基于语料库与知识的算法，并对它们进行了基准数据集和评估的测试，旨在找到最有效的文本相似度算法。

Abstract

document similarity is an important part of natural language processing and is most commonly used for plagiarism-detection and text summarization. Thus, finding the overall most effective →

发现论文，激发创造

语义相似度的演化 -- 综述

本文旨在全面概述自然语言处理领域中语义相似度计算的研究现状和各种方法及其优劣，将其归类为基于知识、基于语料库和基于深度神经网络等不同原理的方法，并希望能够促进新研究者的创新思路和实验。

Apr, 2020

语义相似度度量方法的描述和评估

这篇论文介绍了基于结构、信息内容和特征的语义相似度测量方法，并针对两个标准基准进行了分类和评估，目的是为研究人员和从业者选择适合其要求的最佳度量提供有效的评估。

Oct, 2013

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

基于隐含主题的不同长度文本的相似度比较

本文提出一种文档匹配方法以测量文本相似度，通过将文本在隐藏主题的公共空间中进行比较来弥补长度不可比的文档对之间的词汇、语境和抽象差距，并通过两个匹配任务评估匹配算法并发现它始终广泛优于强基线，揭示了将领域知识纳入文本匹配的好处。

Mar, 2019

多重抄袭的综述：一项性能比较研究

本文是关于抄袭检测在自然语言处理中的研究论文，旨在综合评估不同类型抄袭检测算法的准确性和各自优缺点。通过实验发现，基于句子分离、词语分离和同义词的句子对比方法可以提高抄袭检测的准确率。

Jun, 2022

AI 生成之抄袭侦测：从句子到文件级别

使用自然语言处理技术的对比学习方法，通过多重语义解读对大型语言模型的生成文本进行分析，达到了 94% 的准确率，在学术界检测人工智能生成的文本的抄袭和欺诈具有强大的适应性和可靠性。

Jun, 2023

研究论文的基于方面的文档相似度

本研究介绍了一种基于方面信息的相似度扩展方法，使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度，结果表明 SciBERT 是最有效的系统，这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。

Oct, 2020

图搜索和匹配实现的多文档摘要

本论文提出了一种基于图表达的文本相似性和差异性总结方法，使用 “spreading activation” 技术在两个相关文档中发现与主题语义相关的节点，并将两个文档的激活图匹配以获得相似和不同之处的图。

Dec, 1997

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021