Feb, 2024

PaECTER: 利用引文信息的专利层面表示学习

TL;DRPaECTER 是一个公开可用的、开源的、专门用于专利的文档级编码器。我们使用审查人员添加的引用信息对 BERT 进行微调,以生成专利文档的数值表示。PaECTER 在相似度任务中表现更好,优于专利领域中当前最先进的模型。PaECTER 从专利文本中生成的数值表示可用于分类、知识流程追踪或语义相似性搜索。对于发明家和专利审查员来说,语义相似性搜索在先前技术搜索的背景下尤为重要。PaECTER 在 Hugging Face 上可获得。