使用集成方法对专利申请进行分类

Nov, 2018

使用集成方法对专利申请进行分类

Classifying Patent Applications with Ensemble Methods

Fernando Benites, Shervin Malmasi, Marcos Zampieri

TL;DR使用 ALTA 2018 共享任务提供的已注释数据集，我们提供了自动分类专利申请的方法。通过多种方法的测试，利用 SVM 集成使用单词和字符组合作为特征，最佳结果在 14 支队伍中排名第一的 0.778 微平均 F1 - 值实现了将专利申请按照基于国际专利分类（IPC）的粗粒度分类法分为八个类别的目标。

Abstract

We present methods for the automatic classification of patent applications using an annotated dataset provided by the organizers of the ALTA 2018 shared task - Classifying →

patent applications automatic classification international patent classification computational methods svm ensembles

发现论文，激发创造

基于集成分类器的自动单标签专利分类

本文使用词向量和深度学习技术研究专利分类的任务，并尝试使用不同的特征表示和基于专利文件不同部分的集成分类器。结果表明，与目前最先进的独立解决方案相比，分类器的集成架构显著优于独立解决方案。

Mar, 2022

适应性分类学习与专利分类的历史模式建模

我们提出了一个综合考虑专利信息的专利分类框架，通过自适应地传递和聚合同级和不同级别的信息来推导 IPC 代码的语义表示；通过双通道聚合机制，设计了一个历史应用模式学习组件，以整合相应申请人的先前专利；最后，结合包含 IPC 代码语义和申请人的顺序偏好的专利文本的上下文信息进行预测。实证分析表明我们的方法优于现有方法，并展示了该模型捕捉申请人的时间模式和 IPC 代码之间的语义依赖关系的能力。

Aug, 2023

基于人工智能方法的专利综合调查

最近人工智能（AI）和机器学习在各个领域展示了具有变革性的能力。本研究概述了 2017 年至 2023 年间超过 40 篇论文中关于专利分析的最新人工智能工具，包括适用于专利图像和文本数据的方法。此外，我们提出了一种基于专利生命周期任务和人工智能方法特性的新分类法。该调查旨在为人工智能专利分析领域的研究人员、实践者和专利办公室提供资源。

Apr, 2024

使用 Modified D2SBERT 和 Sentence Attention 机制进行人工智能相关专利的多标签分类

提出了使用自然语言处理技术和深度学习方法对美国专利和商标局发布的与人工智能相关的专利进行分类的方法，采用变形的 BERT 和句子关注机制来克服 BERT 的局限性，实验结果表现最好。

Mar, 2023

使用集成 BERT 相关模型和新型文本处理方法进行专利文档的语义相似性匹配

本研究探讨专利文件分析中的语义相似性评估，介绍了一种集成方法和专利文件的文本预处理方法，重点解决了语言障碍和文档复杂性问题，并在美国专利短语匹配数据集上证明了其有效性。

Jan, 2024

使用预训练 BERT 模型微调进行专利分类

本文提出了一种基于预训练 BERT 模型微调的专利分类方法，使用专利权利要求单独进行分类，与使用 CNN 的词嵌入相比，性能优于现有方法，在 CPC 子类水平上提供了一个大型 USPTO-3M 数据集。

May, 2019

哈佛美国专利商标局专利数据集：一个大规模、结构良好且多用途的专利申请语料库

本文介绍了哈佛美国专利商标局专利数据集（HUPD），是规模大、结构良好且多用途的英文专利申请语料库，可用于创新、人工智能和自然语言处理领域的多项研究任务。

Jul, 2022

探索文本分类在法律领域的应用

本研究使用文本分类和机器学习方法，研究法律专业人员的支持应用。通过实验研究法国最高法院的判决和案件所属法律领域的高准确度预测，发现判决作出的时间对案例描述的形式和数据蒙版的使用会有影响，研究了多个支持向量机分类器的平均概率集成系统，平均 F1 值为 98％，预测案例判决，96％ F1 值用于预测案件的法律领域，对于估计判决日期的 F1 值为 87.07％。

Oct, 2017

专利分析中句子嵌入模型表现的调查

本研究旨在评估基于不同 NLP 嵌入模型的专利数据嵌入模型计算专利技术相似度的准确度，提出了一个评估嵌入模型准确度的标准库和数据集，研究结果表明 PatentSBERTa、Bert-for-patent 和 TF-IDF 加权词嵌入在子类别级别计算句子嵌入具有最好的精确度。

Apr, 2022

利用基于 Transformer 的集成学习来分类科学论文

本文介绍了一个系统，它包括四个独立子系统，能够将科学文献的摘要分类到给定的七个类别中，通过对这四个子系统的集成，可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统，优于现有的最先进模型 SciBERT 的 F1 分数。

Feb, 2021