专利短语语义匹配数据集

SIGIRAug, 2022

Patents Phrase to Phrase Semantic Matching Dataset

Grigor Aslanyan, Ian Wetherbee

TL;DR本研究介绍了一个新的人工评估的语境性短语匹配数据集，主要应用于专利和科学出版物中的技术概念，并且描述了该数据集和一些基线模型。

Abstract

There are many general purpose benchmark datasets for Semantic Textual Similarity but none of them are focused on technical concepts found in patents and scientific publications. This work aims to fill this gap b

semantic textual similarity patents scientific publications dataset baseline models

发现论文，激发创造

PatentMatch: 用于匹配专利申请和现有技术的数据集

本文介绍了一个名为 PatentMatch 的机器学习训练数据集，用于协助专利审查员快速检索相关先前公开信息，其数据集包含有标签的专利申请索赔对和语义上对应的先前公开信息，可用于解决语言障碍和技术域障碍，初步实验结果显示该数据集可用于解决这一复杂的信息检索任务。

Dec, 2020

使用集成 BERT 相关模型和新型文本处理方法进行专利文档的语义相似性匹配

本研究探讨专利文件分析中的语义相似性评估，介绍了一种集成方法和专利文件的文本预处理方法，重点解决了语言障碍和文档复杂性问题，并在美国专利短语匹配数据集上证明了其有效性。

Jan, 2024

PiC：Phrase-in-Context 数据集，用于短语理解和语义搜索

提出了一种为训练和评估短语嵌入而创建的数据集 PiC，该数据集包含～28K 的名词短语及其上下文维基页面，该数据集有助于提高排序模型的准确性并且将跨度选择 (SS) 模型的性能推向近乎人类的精度水平，同时该文还发现该方法更好地捕捉了单词短语的共同含义。

Jul, 2022

连接点：使用检索的短语图推断专利短语相似度

本研究提出了一种基于图增强的方法来提高专利短语的表示能力，并通过自监督学习目标来优化上下文嵌入和图参数，实现专利短语的语义相似度推断。实验证明，该方法在自监督模式下显著提高了专利短语的表示，同时在监督模式下也观察到明显的改进，突显了利用检索的短语图增强的潜在优势。

Mar, 2024

DeepPatent2：用于技术图纸理解的大规模基准测试语料库

最近计算机视觉（CV）和自然语言处理的快速发展受益于对实际应用中的大数据的利用。然而，这些研究领域仍受到可用数据集的数量、多样性和多样性的限制。本研究介绍了 DeepPatent2，这是一个大规模数据集，提供了超过 270 万张技术绘图，其中包含 132,890 个对象名称和 22,394 个视角，提取自 14 年的美国设计专利文件。我们展示了 DeepPatent2 在概念字幕生成方面的实用性，同时还提供了我们的数据集在促进其他研究领域如三维图像重建和图像检索方面的潜在用途。

Nov, 2023

BIGPATENT：大规模的抽象和连贯摘要数据集

本研究提出了一个新的数据集 BIGPATENT，包含了 130 万条美国专利文件及其人工写成的抽象摘要，其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中，且比现有的数据集具有更少和更短的提取片段，在此基础上，我们使用各种学习模型对 BIGPATENT 进行了训练和评估，以揭示新的挑战和激励未来的总结研究方向。

Jun, 2019

一种新的专利相似度测量方法：语义距离和技术距离

提出了一种混合方法来自动测量专利之间的相似度，该方法考虑了语义和技术上的相似性，并使用 BERT 评估文本之间的语义相似度，使用 Jaccard 相似度计算 IPC 代码之间的技术相似度，并通过为两个相似度方法分配权重进行混合化。评估结果表明，该方法优于仅考虑语义相似性的基线。

Mar, 2023

历史英语语义相似性巨大数据集

该研究利用来自当地美国报纸的新数字化文章创建了一个巨大的语义相似性数据集，并利用深度神经方法检测了这些文章中的正面语义相似性对。该语义相似性数据集跨足了 70 年，包含近 400M 个正面语义相似性对，随着时间跨度的增加，将有助于将对比训练的语义相似性模型应用于各种任务。

Jun, 2023

LDKP: 从长篇科技文档中鉴别关键词短语的数据集

该研究发布了两份研究文献语料库，包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据，有助于实现从科学文章中提取关键短语的任务。

Mar, 2022

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023