大型语言模型在专利图像检索中的应用

Apr, 2024

大型语言模型在专利图像检索中的应用

Large Language Model Informed Patent Image Retrieval

Hao-Cheng Lo, Jung-Mei Chu, Jieh Hsiang, Chun-Chieh Cho

TL;DR在专利审查中，基于图像的检索系统对于识别当前专利图像与现有技术之间的相似性至关重要，以确保专利申请的新颖性和非显而易见性。我们提出了一种基于语言的、分布感知的多模态专利图像特征学习方法，通过集成大型语言模型，丰富专利图像的语义理解，并通过我们提出的分布感知对比损失来提高在代表性类别中的性能。在DeepPatent2数据集上进行的大量实验表明，我们提出的方法在基于图像的专利检索方面取得了最先进或可比较的性能，平均准确率提高了53.3％，前10个检索结果的召回率提高了41.8％，前10个检索结果的MRR提高了51.9％。此外，通过深入用户分析，我们探索了我们的模型在帮助专利专业人员进行图像检索方面的作用，凸显了该模型的实际适用性和效果。

Abstract

In patent prosecution, image-based retrieval systems for identifying similarities between current patent images and prior art are pivotal

发现论文，激发创造

使用预训练BERT模型微调进行专利分类

本文提出了一种基于预训练BERT模型微调的专利分类方法，使用专利权利要求单独进行分类，与使用CNN的词嵌入相比，性能优于现有方法，在CPC子类水平上提供了一个大型USPTO-3M数据集。

May, 2019

专利领域的基于语言学知识的掩码表示学习

该研究提出了一种基于语言学启发的遮蔽方法，称为LIM，该方法可用于域适应的预训练模型，以便在专利语言领域提供更好的表示。通过在两个不同的语言模型上评估专利语言的领域适应表示的性能，以专利IPC分类和相似性匹配作为后续任务，该研究证明了该方法的改进效果，并公开了源代码和域适应预训练专利语言模型。

Jun, 2021

专利分析中句子嵌入模型表现的调查

本研究旨在评估基于不同NLP嵌入模型的专利数据嵌入模型计算专利技术相似度的准确度，提出了一个评估嵌入模型准确度的标准库和数据集，研究结果表明PatentSBERTa、Bert-for-patent和TF-IDF加权词嵌入在子类别级别计算句子嵌入具有最好的精确度。

Apr, 2022

专利中的可视化类型和视角分类

本篇论文采用最先进的深度学习方法，对专利图像中的可视化类型和视角进行分类，并对CLEF-IP数据集进行了扩展和手动标注，实验结果证明了该方法的可行性。

Jul, 2023

图像专利检索的高效表示学习

基于专利绘图图像的特征，本文提出了一个简单轻量级的模型，用于专利检索，在大规模基准测试上表现显著优于其他方法，均值平均精度（mAP）得分提高了33.5%，进一步实验证明此模型能够精确扩展以达到惊人的93.5%的mAP，此方法在ECCV 2022专利图像检索挑战赛中排名第一。

Aug, 2023

解释性深度学习模型用于专利分类中的黑匣子揭示

通过介绍层次相关传播方法，我们提出了一种新颖的深度可解释专利分类框架，用于提供人类可理解的预测解释。实验结果表明，对于各种评估指标，生成的解释突出了与预测类别相一致的重要相关词汇，使预测结果更易理解，并有助于推广复杂的AI专利分类方法在实际应用中的采用。

Oct, 2023

人工智能探索专利领域

专利及技术知识管理中的先进语言处理和机器学习技术承诺大规模效率改进。本文系统概述了与专利相关的任务和流行的方法，并着重介绍了发展中和有前景的技术。该研究表明，语言处理和特别是大型语言模型以及最近普遍应用的生成方法有望成为专利领域的颠覆者。然而，专利领域存在一些技术困难，现有模型难以解决。通过指出关键进展、机会和差距，我们旨在鼓励进一步研究，加速该领域的发展。

Mar, 2024

连接点：使用检索的短语图推断专利短语相似度

本研究提出了一种基于图增强的方法来提高专利短语的表示能力，并通过自监督学习目标来优化上下文嵌入和图参数，实现专利短语的语义相似度推断。实验证明，该方法在自监督模式下显著提高了专利短语的表示，同时在监督模式下也观察到明显的改进，突显了利用检索的短语图增强的潜在优势。

Mar, 2024

专利相似性的嵌入模型比较分析

该研究在文本专利相似性领域有两方面的贡献：首先，它比较了不同类型的专利特定预训练嵌入模型，包括静态词嵌入（如word2vec和doc2vec模型）和上下文词嵌入（如基于transformers的模型），在专利相似性计算任务上的性能；其次，它比较了Sentence Transformers（SBERT）架构在专利相似性任务上不同训练阶段的性能。结果表明，该研究提出的专利SBERT-adapt-ub，即预训练Sentence Transformer架构的领域自适应，优于当前专利相似性的最新技术水平。其次，研究结果显示，在某些情况下，大型静态模型在训练大量数据时仍可以与上下文模型相媲美；因此，我们认为上下文嵌入在性能上的优势可能与实际架构无关，而是与训练阶段的方式有关。

Mar, 2024

基于人工智能方法的专利综合调查

最近人工智能（AI）和机器学习在各个领域展示了具有变革性的能力。本研究概述了2017年至2023年间超过40篇论文中关于专利分析的最新人工智能工具，包括适用于专利图像和文本数据的方法。此外，我们提出了一种基于专利生命周期任务和人工智能方法特性的新分类法。该调查旨在为人工智能专利分析领域的研究人员、实践者和专利办公室提供资源。

Apr, 2024