哈佛美国专利商标局专利数据集：一个大规模、结构良好且多用途的专利申请语料库

Jul, 2022

哈佛美国专利商标局专利数据集：一个大规模、结构良好且多用途的专利申请语料库

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications

Mirac Suzgun, Luke Melas-Kyriazi, Suproteem K. Sarkar, Scott Duke Kominers, Stuart M. Shieber

TL;DR本文介绍了哈佛美国专利商标局专利数据集（HUPD），是规模大、结构良好且多用途的英文专利申请语料库，可用于创新、人工智能和自然语言处理领域的多项研究任务。

Abstract

innovation is a major driver of economic and social development, and information about many kinds of innovation is embedded in semi-structured data from patents and patent applications. Although the impact and no

innovation ml patent dataset nlp metadata

发现论文，激发创造

人工智能和美国专利商标局开放数据的最新发展

本文介绍了有关人工智能技术在专利分析、经济学和诉讼工具方面的应用和研究，并阐明了 USPTO 数据产品在该领域的重要性和案例。

Jul, 2022

BIGPATENT：大规模的抽象和连贯摘要数据集

本研究提出了一个新的数据集 BIGPATENT，包含了 130 万条美国专利文件及其人工写成的抽象摘要，其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中，且比现有的数据集具有更少和更短的提取片段，在此基础上，我们使用各种学习模型对 BIGPATENT 进行了训练和评估，以揭示新的挑战和激励未来的总结研究方向。

Jun, 2019

人工智能探索专利领域

专利及技术知识管理中的先进语言处理和机器学习技术承诺大规模效率改进。本文系统概述了与专利相关的任务和流行的方法，并着重介绍了发展中和有前景的技术。该研究表明，语言处理和特别是大型语言模型以及最近普遍应用的生成方法有望成为专利领域的颠覆者。然而，专利领域存在一些技术困难，现有模型难以解决。通过指出关键进展、机会和差距，我们旨在鼓励进一步研究，加速该领域的发展。

Mar, 2024

DeepPatent2：用于技术图纸理解的大规模基准测试语料库

最近计算机视觉（CV）和自然语言处理的快速发展受益于对实际应用中的大数据的利用。然而，这些研究领域仍受到可用数据集的数量、多样性和多样性的限制。本研究介绍了 DeepPatent2，这是一个大规模数据集，提供了超过 270 万张技术绘图，其中包含 132,890 个对象名称和 22,394 个视角，提取自 14 年的美国设计专利文件。我们展示了 DeepPatent2 在概念字幕生成方面的实用性，同时还提供了我们的数据集在促进其他研究领域如三维图像重建和图像检索方面的潜在用途。

Nov, 2023

PatentMatch: 用于匹配专利申请和现有技术的数据集

本文介绍了一个名为 PatentMatch 的机器学习训练数据集，用于协助专利审查员快速检索相关先前公开信息，其数据集包含有标签的专利申请索赔对和语义上对应的先前公开信息，可用于解决语言障碍和技术域障碍，初步实验结果显示该数据集可用于解决这一复杂的信息检索任务。

Dec, 2020

使用集成方法对专利申请进行分类

使用 ALTA 2018 共享任务提供的已注释数据集，我们提供了自动分类专利申请的方法。通过多种方法的测试，利用 SVM 集成使用单词和字符组合作为特征，最佳结果在 14 支队伍中排名第一的 0.778 微平均 F1 - 值实现了将专利申请按照基于国际专利分类（IPC）的粗粒度分类法分为八个类别的目标。

Nov, 2018

unarXive 2022: 包含结构化全文和引用网络的 NLP 预处理 arXiv 出版物

提出了一个新版的数据集 unarXive，包含了跨越多学科和 32 年的 1.9 百万篇学术出版物，有更完整的引文网络和更丰富的文档结构表示方法和非文本内容的呈现。提供了用于引文推荐和 IMRaD 分类的训练 / 测试数据集。

Mar, 2023

大型语言模型在专利图像检索中的应用

在专利审查中，基于图像的检索系统对于识别当前专利图像与现有技术之间的相似性至关重要，以确保专利申请的新颖性和非显而易见性。我们提出了一种基于语言的、分布感知的多模态专利图像特征学习方法，通过集成大型语言模型，丰富专利图像的语义理解，并通过我们提出的分布感知对比损失来提高在代表性类别中的性能。在 DeepPatent2 数据集上进行的大量实验表明，我们提出的方法在基于图像的专利检索方面取得了最先进或可比较的性能，平均准确率提高了 53.3％，前 10 个检索结果的召回率提高了 41.8％，前 10 个检索结果的 MRR 提高了 51.9％。此外，通过深入用户分析，我们探索了我们的模型在帮助专利专业人员进行图像检索方面的作用，凸显了该模型的实际适用性和效果。

Apr, 2024

基于人工智能方法的专利综合调查

最近人工智能（AI）和机器学习在各个领域展示了具有变革性的能力。本研究概述了 2017 年至 2023 年间超过 40 篇论文中关于专利分析的最新人工智能工具，包括适用于专利图像和文本数据的方法。此外，我们提出了一种基于专利生命周期任务和人工智能方法特性的新分类法。该调查旨在为人工智能专利分析领域的研究人员、实践者和专利办公室提供资源。

Apr, 2024

发明专利图生成短长说明

介绍了 Qatent PatFig，这是一个创新的大规模专利图像数据集，包括来自超过 11,000 个欧洲专利申请的 30,000 多个专利图像。每个图像都提供简短和长篇的描述、参考编号及其相应的术语，以及描述图像组件之间相互作用的最小索赔集。通过在 Qatent PatFig 上微调 LVLM 模型以生成简短和长篇描述，并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果，评估了数据集的可用性。

Sep, 2023