PatentEdits:将专利新颖性框架化为文本蕴含
本文研究了使用OpenAI GPT-2预训练模型进行专利权描述生成的微调方法,并探索了专利权描述语言的独特结构和样式。通过提出一种新的采样方法,我们对生成的专利权描述进行了分析和总结,并提供了未来研究的各种实验结果。
Jul, 2019
本研究旨在构建专利领域的生成语言模型,并从人本主义的角度评估模型。通过计算根据生成模型预测可在自动完成上为用户省略的按键比例来评估模型性能。在此度量基础上,发现最大的模型不一定是最好的。在本研究中发布了多个基于专利语料库从头开始预训练的模型。此外,本文提出了专利法的几个法律含义,未来可能进行跨学科研究。特别地,基于模型预测的度量是否可用作专利法中的非明显性要求度量?
Jun, 2022
本文介绍了哈佛美国专利商标局专利数据集(HUPD),是规模大、结构良好且多用途的英文专利申请语料库,可用于创新、人工智能和自然语言处理领域的多项研究任务。
Jul, 2022
使用生成式语言模型 (GPT-4) 新方法进行大规模文本分析。将这一方法应用于发现美国人工智能专利中的公共价值表达。使用我们设计的GPT-4提示和调查数据库中的所有专利文件,以确定和标记AI专利句中的公共价值表述。使用由GPT-4生成的标签来训练BERT模型的分类器,从而获得高的F1分数。这表明,使用有条理的框架设计和交互式人类监督,生成式语言模型可以在产生标签和理性方面具有显着优势,同时不会降低质量。
May, 2023
专利及技术知识管理中的先进语言处理和机器学习技术承诺大规模效率改进。本文系统概述了与专利相关的任务和流行的方法,并着重介绍了发展中和有前景的技术。该研究表明,语言处理和特别是大型语言模型以及最近普遍应用的生成方法有望成为专利领域的颠覆者。然而,专利领域存在一些技术困难,现有模型难以解决。通过指出关键进展、机会和差距,我们旨在鼓励进一步研究,加速该领域的发展。
Mar, 2024
本研究提出了一种基于图增强的方法来提高专利短语的表示能力,并通过自监督学习目标来优化上下文嵌入和图参数,实现专利短语的语义相似度推断。实验证明,该方法在自监督模式下显著提高了专利短语的表示,同时在监督模式下也观察到明显的改进,突显了利用检索的短语图增强的潜在优势。
Mar, 2024
我们介绍了一种专门设计用于评估机器生成专利文本中两个不同任务的全面错误类型学,即声明到摘要的生成以及给定前面声明的生成下一个声明。我们还开发了一个用于系统评估语言模型在此背景下的基准测试工具PatentEval。此外,我们还对各种模型进行了人工标注的比较分析,这些模型从专门为专利领域内的任务而进行训练的模型到最新的通用大型语言模型(LLMs)。此外,我们还探索和评估了一些指标来近似专利文本评估中的人工判断,并分析这些指标在专家评估中的一致性程度。这些方法对当前语言模型在专利文本生成领域的能力和局限性提供了有价值的见解。
Jun, 2024
本文通过构建一个数据集,研究了当前大型语言模型在专利声明生成方面的表现。结果表明,基于专利描述生成声明的性能优于先前仅基于摘要的研究。与最先进的通用大型语言模型相比,当前专利特定的大型语言模型表现较差,强调了在该领域开展未来研究的必要性。此外,我们还发现大型语言模型能够产生高质量的首要独立声明,但是对于后续的从属声明,性能显著下降。此外,微调可以增强发明特征的完整性、概念清晰度和特征关联。在测试的大型语言模型中,GPT-4在专利专家的综合人工评价中表现最佳,具有更好的特征覆盖率、概念清晰度和技术连贯性。尽管具备这些能力,仍需要进行全面的修订和修改,以通过严格的专利审查并确保法律的稳健性。
Jun, 2024