专利短语语义匹配数据集
本文介绍了一个名为 PatentMatch 的机器学习训练数据集,用于协助专利审查员快速检索相关先前公开信息,其数据集包含有标签的专利申请索赔对和语义上对应的先前公开信息,可用于解决语言障碍和技术域障碍,初步实验结果显示该数据集可用于解决这一复杂的信息检索任务。
Dec, 2020
本研究探讨专利文件分析中的语义相似性评估,介绍了一种集成方法和专利文件的文本预处理方法,重点解决了语言障碍和文档复杂性问题,并在美国专利短语匹配数据集上证明了其有效性。
Jan, 2024
提出了一种为训练和评估短语嵌入而创建的数据集 PiC,该数据集包含~28K 的名词短语及其上下文维基页面,该数据集有助于提高排序模型的准确性并且将跨度选择 (SS) 模型的性能推向近乎人类的精度水平,同时该文还发现该方法更好地捕捉了单词短语的共同含义。
Jul, 2022
本研究提出了一种基于图增强的方法来提高专利短语的表示能力,并通过自监督学习目标来优化上下文嵌入和图参数,实现专利短语的语义相似度推断。实验证明,该方法在自监督模式下显著提高了专利短语的表示,同时在监督模式下也观察到明显的改进,突显了利用检索的短语图增强的潜在优势。
Mar, 2024
最近计算机视觉(CV)和自然语言处理的快速发展受益于对实际应用中的大数据的利用。然而,这些研究领域仍受到可用数据集的数量、多样性和多样性的限制。本研究介绍了 DeepPatent2,这是一个大规模数据集,提供了超过 270 万张技术绘图,其中包含 132,890 个对象名称和 22,394 个视角,提取自 14 年的美国设计专利文件。我们展示了 DeepPatent2 在概念字幕生成方面的实用性,同时还提供了我们的数据集在促进其他研究领域如三维图像重建和图像检索方面的潜在用途。
Nov, 2023
本研究提出了一个新的数据集 BIGPATENT,包含了 130 万条美国专利文件及其人工写成的抽象摘要,其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中,且比现有的数据集具有更少和更短的提取片段,在此基础上,我们使用各种学习模型对 BIGPATENT 进行了训练和评估,以揭示新的挑战和激励未来的总结研究方向。
Jun, 2019
提出了一种混合方法来自动测量专利之间的相似度,该方法考虑了语义和技术上的相似性,并使用 BERT 评估文本之间的语义相似度,使用 Jaccard 相似度计算 IPC 代码之间的技术相似度,并通过为两个相似度方法分配权重进行混合化。评估结果表明,该方法优于仅考虑语义相似性的基线。
Mar, 2023
该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集,并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年,包含近 400M 个正面语义相似性对,随着时间跨度的增加,将有助于将对比训练的语义相似性模型应用于各种任务。
Jun, 2023
该研究发布了两份研究文献语料库,包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据,有助于实现从科学文章中提取关键短语的任务。
Mar, 2022