PatentEdits：将专利新颖性框架化为文本蕴含

Nov, 2024

PatentEdits：将专利新颖性框架化为文本蕴含

PatentEdits: Framing Patent Novelty as Textual Entailment

Ryan Lee, Alexander Spangher, Xuezhe Ma

TL;DR本研究针对专利在获得批准时需满足新颖性和非显而易见性的问题，提出了一种新的方法。通过引入PatentEdits数据集，包含105K例成功修订的数据，我们设计了算法逐句标记修订，并利用大型语言模型预测哪些发明主张在先前艺术中保持不变或是新颖的。此研究的主要发现是，通过评估引用文献与草拟句子之间的文本蕴含，可以有效预测修订结果。

Abstract

A patent must be deemed novel and non-obvious in order to be granted by the US patent Office (USPTO). If it is not, a US patent examiner w

发现论文，激发创造

使用微调的 OpenAI GPT-2 进行专利权要求生成

本文研究了使用OpenAI GPT-2预训练模型进行专利权描述生成的微调方法，并探索了专利权描述语言的独特结构和样式。通过提出一种新的采样方法，我们对生成的专利权描述进行了分析和总结，并提供了未来研究的各种实验结果。

Jul, 2019

使用词嵌入和专业众包技术进行专利搜索的查询扩展

本文在11个不同的技术领域研究了词嵌入和众包模型的有效性，重点是专利、查询扩展、词嵌入、相关术语和众包模型。

Nov, 2019

评估生成式专利语言模型

本研究旨在构建专利领域的生成语言模型，并从人本主义的角度评估模型。通过计算根据生成模型预测可在自动完成上为用户省略的按键比例来评估模型性能。在此度量基础上，发现最大的模型不一定是最好的。在本研究中发布了多个基于专利语料库从头开始预训练的模型。此外，本文提出了专利法的几个法律含义，未来可能进行跨学科研究。特别地，基于模型预测的度量是否可用作专利法中的非明显性要求度量？

Jun, 2022

哈佛美国专利商标局专利数据集：一个大规模、结构良好且多用途的专利申请语料库

本文介绍了哈佛美国专利商标局专利数据集（HUPD），是规模大、结构良好且多用途的英文专利申请语料库，可用于创新、人工智能和自然语言处理领域的多项研究任务。

Jul, 2022

专利短语语义匹配数据集

本研究介绍了一个新的人工评估的语境性短语匹配数据集，主要应用于专利和科学出版物中的技术概念，并且描述了该数据集和一些基线模型。

Aug, 2022

使用生成式语言模型进行大规模文本分析：以AI专利中公共价值表达为例的案例研究

使用生成式语言模型 (GPT-4) 新方法进行大规模文本分析。将这一方法应用于发现美国人工智能专利中的公共价值表达。使用我们设计的GPT-4提示和调查数据库中的所有专利文件，以确定和标记AI专利句中的公共价值表述。使用由GPT-4生成的标签来训练BERT模型的分类器，从而获得高的F1分数。这表明，使用有条理的框架设计和交互式人类监督，生成式语言模型可以在产生标签和理性方面具有显着优势，同时不会降低质量。

May, 2023

人工智能探索专利领域

专利及技术知识管理中的先进语言处理和机器学习技术承诺大规模效率改进。本文系统概述了与专利相关的任务和流行的方法，并着重介绍了发展中和有前景的技术。该研究表明，语言处理和特别是大型语言模型以及最近普遍应用的生成方法有望成为专利领域的颠覆者。然而，专利领域存在一些技术困难，现有模型难以解决。通过指出关键进展、机会和差距，我们旨在鼓励进一步研究，加速该领域的发展。

Mar, 2024

连接点：使用检索的短语图推断专利短语相似度

本研究提出了一种基于图增强的方法来提高专利短语的表示能力，并通过自监督学习目标来优化上下文嵌入和图参数，实现专利短语的语义相似度推断。实验证明，该方法在自监督模式下显著提高了专利短语的表示，同时在监督模式下也观察到明显的改进，突显了利用检索的短语图增强的潜在优势。

Mar, 2024

专利评估：理解专利生成中的错误

我们介绍了一种专门设计用于评估机器生成专利文本中两个不同任务的全面错误类型学，即声明到摘要的生成以及给定前面声明的生成下一个声明。我们还开发了一个用于系统评估语言模型在此背景下的基准测试工具PatentEval。此外，我们还对各种模型进行了人工标注的比较分析，这些模型从专门为专利领域内的任务而进行训练的模型到最新的通用大型语言模型（LLMs）。此外，我们还探索和评估了一些指标来近似专利文本评估中的人工判断，并分析这些指标在专家评估中的一致性程度。这些方法对当前语言模型在专利文本生成领域的能力和局限性提供了有价值的见解。

Jun, 2024

大型语言模型能否生成高质量的专利要求？

本文通过构建一个数据集，研究了当前大型语言模型在专利声明生成方面的表现。结果表明，基于专利描述生成声明的性能优于先前仅基于摘要的研究。与最先进的通用大型语言模型相比，当前专利特定的大型语言模型表现较差，强调了在该领域开展未来研究的必要性。此外，我们还发现大型语言模型能够产生高质量的首要独立声明，但是对于后续的从属声明，性能显著下降。此外，微调可以增强发明特征的完整性、概念清晰度和特征关联。在测试的大型语言模型中，GPT-4在专利专家的综合人工评价中表现最佳，具有更好的特征覆盖率、概念清晰度和技术连贯性。尽管具备这些能力，仍需要进行全面的修订和修改，以通过严格的专利审查并确保法律的稳健性。

Jun, 2024