使用微调的 OpenAI GPT-2 进行专利权要求生成
通过人类反馈学习强化学习模型,以提高生成专利权要求的语言模型被授予的可能性,并证明生成语言模型能够反映专利申请中的人类反馈或意图。
May, 2024
本文通过构建一个数据集,研究了当前大型语言模型在专利声明生成方面的表现。结果表明,基于专利描述生成声明的性能优于先前仅基于摘要的研究。与最先进的通用大型语言模型相比,当前专利特定的大型语言模型表现较差,强调了在该领域开展未来研究的必要性。此外,我们还发现大型语言模型能够产生高质量的首要独立声明,但是对于后续的从属声明,性能显著下降。此外,微调可以增强发明特征的完整性、概念清晰度和特征关联。在测试的大型语言模型中,GPT-4 在专利专家的综合人工评价中表现最佳,具有更好的特征覆盖率、概念清晰度和技术连贯性。尽管具备这些能力,仍需要进行全面的修订和修改,以通过严格的专利审查并确保法律的稳健性。
Jun, 2024
本文提出了一种基于预训练 BERT 模型微调的专利分类方法,使用专利权利要求单独进行分类,与使用 CNN 的词嵌入相比,性能优于现有方法,在 CPC 子类水平上提供了一个大型 USPTO-3M 数据集。
May, 2019
应用大型语言模型在知识产权领域具有挑战性,本研究提出了一种低成本、标准化的过程来训练面向知识产权的语言模型,成功满足了该领域的需求,并证明了在知识产权领域中专门训练的模型的有效性。
Apr, 2024
我们介绍了一种专门设计用于评估机器生成专利文本中两个不同任务的全面错误类型学,即声明到摘要的生成以及给定前面声明的生成下一个声明。我们还开发了一个用于系统评估语言模型在此背景下的基准测试工具 PatentEval。此外,我们还对各种模型进行了人工标注的比较分析,这些模型从专门为专利领域内的任务而进行训练的模型到最新的通用大型语言模型(LLMs)。此外,我们还探索和评估了一些指标来近似专利文本评估中的人工判断,并分析这些指标在专家评估中的一致性程度。这些方法对当前语言模型在专利文本生成领域的能力和局限性提供了有价值的见解。
Jun, 2024
使用生成式语言模型 (GPT-4) 新方法进行大规模文本分析。将这一方法应用于发现美国人工智能专利中的公共价值表达。使用我们设计的 GPT-4 提示和调查数据库中的所有专利文件,以确定和标记 AI 专利句中的公共价值表述。使用由 GPT-4 生成的标签来训练 BERT 模型的分类器,从而获得高的 F1 分数。这表明,使用有条理的框架设计和交互式人类监督,生成式语言模型可以在产生标签和理性方面具有显着优势,同时不会降低质量。
May, 2023
该研究探讨了自动文本生成的领域,从传统确定性方法到现代随机方法,研究了多种技术。通过对贪婪搜索、束搜索、顶 k 采样、顶 p 采样、对比搜索和局部典型搜索的分析,得出了每种方法的优点、缺点和潜在应用。使用多个标准度量评估了每种文本生成方法,并对方法的性能进行了比较研究。最后,还确定了自动文本生成领域的一些未来研究方向。
Apr, 2024
本研究旨在构建专利领域的生成语言模型,并从人本主义的角度评估模型。通过计算根据生成模型预测可在自动完成上为用户省略的按键比例来评估模型性能。在此度量基础上,发现最大的模型不一定是最好的。在本研究中发布了多个基于专利语料库从头开始预训练的模型。此外,本文提出了专利法的几个法律含义,未来可能进行跨学科研究。特别地,基于模型预测的度量是否可用作专利法中的非明显性要求度量?
Jun, 2022
专利及技术知识管理中的先进语言处理和机器学习技术承诺大规模效率改进。本文系统概述了与专利相关的任务和流行的方法,并着重介绍了发展中和有前景的技术。该研究表明,语言处理和特别是大型语言模型以及最近普遍应用的生成方法有望成为专利领域的颠覆者。然而,专利领域存在一些技术困难,现有模型难以解决。通过指出关键进展、机会和差距,我们旨在鼓励进一步研究,加速该领域的发展。
Mar, 2024
本研究基于 GPT-3 模型自动生成科学论文摘要,通过机器学习模型结合多种文本表示方法来辨别机器生成文本,并分析模型性能及讨论相关研究问题,旨在揭示人工智能生成文本的能力和局限性。
Apr, 2023