文件相似度算法比较
本文旨在全面概述自然语言处理领域中语义相似度计算的研究现状和各种方法及其优劣,将其归类为基于知识、基于语料库和基于深度神经网络等不同原理的方法,并希望能够促进新研究者的创新思路和实验。
Apr, 2020
这篇论文介绍了基于结构、信息内容和特征的语义相似度测量方法,并针对两个标准基准进行了分类和评估,目的是为研究人员和从业者选择适合其要求的最佳度量提供有效的评估。
Oct, 2013
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本文提出一种文档匹配方法以测量文本相似度,通过将文本在隐藏主题的公共空间中进行比较来弥补长度不可比的文档对之间的词汇、语境和抽象差距,并通过两个匹配任务评估匹配算法并发现它始终广泛优于强基线,揭示了将领域知识纳入文本匹配的好处。
Mar, 2019
本文是关于抄袭检测在自然语言处理中的研究论文,旨在综合评估不同类型抄袭检测算法的准确性和各自优缺点。通过实验发现,基于句子分离、词语分离和同义词的句子对比方法可以提高抄袭检测的准确率。
Jun, 2022
使用自然语言处理技术的对比学习方法,通过多重语义解读对大型语言模型的生成文本进行分析,达到了 94% 的准确率,在学术界检测人工智能生成的文本的抄袭和欺诈具有强大的适应性和可靠性。
Jun, 2023
本研究介绍了一种基于方面信息的相似度扩展方法,使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度,结果表明 SciBERT 是最有效的系统,这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。
Oct, 2020
本论文提出了一种基于图表达的文本相似性和差异性总结方法,使用 “spreading activation” 技术在两个相关文档中发现与主题语义相关的节点,并将两个文档的激活图匹配以获得相似和不同之处的图。
Dec, 1997
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021