专利相似性的嵌入模型比较分析

Mar, 2024

A comparative analysis of embedding models for patent similarity

Grazia Sveva Ascione, Valerio Sterzi

TL;DR该研究在文本专利相似性领域有两方面的贡献：首先，它比较了不同类型的专利特定预训练嵌入模型，包括静态词嵌入（如 word2vec 和 doc2vec 模型）和上下文词嵌入（如基于 transformers 的模型），在专利相似性计算任务上的性能；其次，它比较了 Sentence Transformers（SBERT）架构在专利相似性任务上不同训练阶段的性能。结果表明，该研究提出的专利 SBERT-adapt-ub，即预训练 Sentence Transformer 架构的领域自适应，优于当前专利相似性的最新技术水平。其次，研究结果显示，在某些情况下，大型静态模型在训练大量数据时仍可以与上下文模型相媲美；因此，我们认为上下文嵌入在性能上的优势可能与实际架构无关，而是与训练阶段的方式有关。

Abstract

This paper makes two contributions to the field of text-based patent similarity. First, it compares the performance of different kinds of patent-specific pretrained embedding models, namely static word embeddings (such as word2vec and doc2vec models) and contextual word embeddings (suc

text-based patent similarity pretrained embedding models sentence transformers (sbert)patent interferences training phase

发现论文，激发创造

专利分析中句子嵌入模型表现的调查

本研究旨在评估基于不同 NLP 嵌入模型的专利数据嵌入模型计算专利技术相似度的准确度，提出了一个评估嵌入模型准确度的标准库和数据集，研究结果表明 PatentSBERTa、Bert-for-patent 和 TF-IDF 加权词嵌入在子类别级别计算句子嵌入具有最好的精确度。

Apr, 2022

基于 Transformer 的大语料库语义相似度分析的认知研究

本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模，并对 Decoding Enhanced BERT（DeBERTa）的四种不同变体进行实验，在此基础上通过 K 次交叉验证提高性能，实验结果表明我们的方法比传统技术更具有优越性，平均 Pearson 相关系数为 0.79。

Jul, 2022

语义文本相似度中文程序缩略模型的比较研究

比较语义文本相似性方法在检索类似缺陷报告方面的有效性，使用 TF-IDF（基线）、FastText、Gensim、BERT 和 ADA 等嵌入模型来评估性能。研究结果表明，BERT 一般在召回率方面表现优于其他模型，其次是 ADA、Gensim、FastText 和 TFIDF，对检索类似缺陷报告任务选择合适的嵌入方法的影响进行了探讨。

Aug, 2023

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

SBERT-WK：通过解剖基于 BERT 的词模型的句子嵌入方法

本文介绍了一种基于 BERT 的词模型的高质量句子嵌入方法 ——SBERT-WK，它通过对词表示所张成空间的几何分析，研究了深度上下文模型词表示的分层模式，并在语义文本相似度和下游监督任务中评估了其性能，实验结果表明 SBERT-WK 取得了最先进的性能。

Feb, 2020

来自不同监督信号的句子嵌入的比较和组合

本文探讨了两种类型的句子嵌入方法对于语义文本相似度任务性能的影响，发现 fine-tunes 预训练语言模型在自然语言推断和单词预测任务中使用能够提高性能，而且将两种方法相结合能够比单个方法取得更好的效果。

Feb, 2022

基于激活和显著性图解释基于 BERT 的文本相似性

本研究利用预训练的 BERT 模型提出了一种无监督的技术来解释段落相似性，该方法被广泛应用于数据集，证明了其在识别重要语义单词、匹配和检索关键词等方面表现优异，能够更准确地解释与人类感知相关的相似性预测。

Aug, 2022

基于 Bert 的上下文对词相似度影响的精准预测模型

本文主要探讨了一种分析语境对相似词人类感知影响的方法，使用多种方式计算 BERT 生成的双向编码器表示法的两个嵌入向量之间的距离，研究组在 SemEval 2020 的任务三中赢得了芬兰语语言赛道的第一名和英语语言赛道的第二名。

May, 2020

使用集成 BERT 相关模型和新型文本处理方法进行专利文档的语义相似性匹配

本研究探讨专利文件分析中的语义相似性评估，介绍了一种集成方法和专利文件的文本预处理方法，重点解决了语言障碍和文档复杂性问题，并在美国专利短语匹配数据集上证明了其有效性。

Jan, 2024

生物医学领域语义相似度评估的神经句子嵌入模型

本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据，研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性；结果表明，我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法，并呼吁进一步对生物医学句子中的矛盾和否定进行研究。

Oct, 2021