Jun, 2024

专利评估:理解专利生成中的错误

TL;DR我们介绍了一种专门设计用于评估机器生成专利文本中两个不同任务的全面错误类型学,即声明到摘要的生成以及给定前面声明的生成下一个声明。我们还开发了一个用于系统评估语言模型在此背景下的基准测试工具 PatentEval。此外,我们还对各种模型进行了人工标注的比较分析,这些模型从专门为专利领域内的任务而进行训练的模型到最新的通用大型语言模型(LLMs)。此外,我们还探索和评估了一些指标来近似专利文本评估中的人工判断,并分析这些指标在专家评估中的一致性程度。这些方法对当前语言模型在专利文本生成领域的能力和局限性提供了有价值的见解。