专利分析中句子嵌入模型表现的调查
该研究在文本专利相似性领域有两方面的贡献:首先,它比较了不同类型的专利特定预训练嵌入模型,包括静态词嵌入(如 word2vec 和 doc2vec 模型)和上下文词嵌入(如基于 transformers 的模型),在专利相似性计算任务上的性能;其次,它比较了 Sentence Transformers(SBERT)架构在专利相似性任务上不同训练阶段的性能。结果表明,该研究提出的专利 SBERT-adapt-ub,即预训练 Sentence Transformer 架构的领域自适应,优于当前专利相似性的最新技术水平。其次,研究结果显示,在某些情况下,大型静态模型在训练大量数据时仍可以与上下文模型相媲美;因此,我们认为上下文嵌入在性能上的优势可能与实际架构无关,而是与训练阶段的方式有关。
Mar, 2024
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同,我们的方法提供了对方法在现实情境的评估。我们发现,大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式,但也存在有趣的差异。
Aug, 2023
提出了一种混合方法来自动测量专利之间的相似度,该方法考虑了语义和技术上的相似性,并使用 BERT 评估文本之间的语义相似度,使用 Jaccard 相似度计算 IPC 代码之间的技术相似度,并通过为两个相似度方法分配权重进行混合化。评估结果表明,该方法优于仅考虑语义相似性的基线。
Mar, 2023
本研究探讨专利文件分析中的语义相似性评估,介绍了一种集成方法和专利文件的文本预处理方法,重点解决了语言障碍和文档复杂性问题,并在美国专利短语匹配数据集上证明了其有效性。
Jan, 2024
比较语义文本相似性方法在检索类似缺陷报告方面的有效性,使用 TF-IDF(基线)、FastText、Gensim、BERT 和 ADA 等嵌入模型来评估性能。研究结果表明,BERT 一般在召回率方面表现优于其他模型,其次是 ADA、Gensim、FastText 和 TFIDF,对检索类似缺陷报告任务选择合适的嵌入方法的影响进行了探讨。
Aug, 2023
本文讨论了各种词嵌入和句子嵌入算法,选择 Bert 作为我们的算法,并评估了 FAISS 和 Elasticsearch 两种向量比较方法在句子嵌入问题中的表现。结果显示,当使用大型数据集进行集中式环境的处理时,FAISS 的性能优于 Elasticsearch。
Apr, 2022
本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据,研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性;结果表明,我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法,并呼吁进一步对生物医学句子中的矛盾和否定进行研究。
Oct, 2021
本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果,但对于语义任务来说需要更复杂的组合。
Apr, 2023
提出了使用自然语言处理技术和深度学习方法对美国专利和商标局发布的与人工智能相关的专利进行分类的方法,采用变形的 BERT 和句子关注机制来克服 BERT 的局限性,实验结果表现最好。
Mar, 2023