专利分析中句子嵌入模型表现的调查

Apr, 2022

专利分析中句子嵌入模型表现的调查

A Survey on Sentence Embedding Models Performance for Patent Analysis

Hamid Bekamiri, Daniel S. Hain, Roman Jurowetzki

TL;DR本研究旨在评估基于不同 NLP 嵌入模型的专利数据嵌入模型计算专利技术相似度的准确度，提出了一个评估嵌入模型准确度的标准库和数据集，研究结果表明 PatentSBERTa、Bert-for-patent 和 TF-IDF 加权词嵌入在子类别级别计算句子嵌入具有最好的精确度。

Abstract

patent data is an important source of knowledge for innovation research, while the technological similarity between pairs of patents is a key enabling indicator for →

patent data technological similarity patent analysis embedding models accuracy assessment

发现论文，激发创造

专利相似性的嵌入模型比较分析

该研究在文本专利相似性领域有两方面的贡献：首先，它比较了不同类型的专利特定预训练嵌入模型，包括静态词嵌入（如 word2vec 和 doc2vec 模型）和上下文词嵌入（如基于 transformers 的模型），在专利相似性计算任务上的性能；其次，它比较了 Sentence Transformers（SBERT）架构在专利相似性任务上不同训练阶段的性能。结果表明，该研究提出的专利 SBERT-adapt-ub，即预训练 Sentence Transformer 架构的领域自适应，优于当前专利相似性的最新技术水平。其次，研究结果显示，在某些情况下，大型静态模型在训练大量数据时仍可以与上下文模型相媲美；因此，我们认为上下文嵌入在性能上的优势可能与实际架构无关，而是与训练阶段的方式有关。

Mar, 2024

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

一种新的专利相似度测量方法：语义距离和技术距离

提出了一种混合方法来自动测量专利之间的相似度，该方法考虑了语义和技术上的相似性，并使用 BERT 评估文本之间的语义相似度，使用 Jaccard 相似度计算 IPC 代码之间的技术相似度，并通过为两个相似度方法分配权重进行混合化。评估结果表明，该方法优于仅考虑语义相似性的基线。

Mar, 2023

以词和句相似性重新思考评估

本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

使用集成 BERT 相关模型和新型文本处理方法进行专利文档的语义相似性匹配

本研究探讨专利文件分析中的语义相似性评估，介绍了一种集成方法和专利文件的文本预处理方法，重点解决了语言障碍和文档复杂性问题，并在美国专利短语匹配数据集上证明了其有效性。

Jan, 2024

语义文本相似度中文程序缩略模型的比较研究

比较语义文本相似性方法在检索类似缺陷报告方面的有效性，使用 TF-IDF（基线）、FastText、Gensim、BERT 和 ADA 等嵌入模型来评估性能。研究结果表明，BERT 一般在召回率方面表现优于其他模型，其次是 ADA、Gensim、FastText 和 TFIDF，对检索类似缺陷报告任务选择合适的嵌入方法的影响进行了探讨。

Aug, 2023

句子嵌入的高效比较

本文讨论了各种词嵌入和句子嵌入算法，选择 Bert 作为我们的算法，并评估了 FAISS 和 Elasticsearch 两种向量比较方法在句子嵌入问题中的表现。结果显示，当使用大型数据集进行集中式环境的处理时，FAISS 的性能优于 Elasticsearch。

Apr, 2022

生物医学领域语义相似度评估的神经句子嵌入模型

本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据，研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性；结果表明，我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法，并呼吁进一步对生物医学句子中的矛盾和否定进行研究。

Oct, 2021

最佳多语言文件嵌入是否只是基于句子嵌入？

本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法，证明了对于多语言任务来说，通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元，并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果，但对于语义任务来说需要更复杂的组合。

Apr, 2023

使用 Modified D2SBERT 和 Sentence Attention 机制进行人工智能相关专利的多标签分类

提出了使用自然语言处理技术和深度学习方法对美国专利和商标局发布的与人工智能相关的专利进行分类的方法，采用变形的 BERT 和句子关注机制来克服 BERT 的局限性，实验结果表现最好。

Mar, 2023