专利领域的基于语言学知识的掩码表示学习

SIGIRJun, 2021

专利领域的基于语言学知识的掩码表示学习

Linguistically Informed Masking for Representation Learning in the Patent Domain

Sophia Althammer, Mark Buckley, Sebastian Hofstätter, Allan Hanbury

TL;DR该研究提出了一种基于语言学启发的遮蔽方法，称为 LIM，该方法可用于域适应的预训练模型，以便在专利语言领域提供更好的表示。通过在两个不同的语言模型上评估专利语言的领域适应表示的性能，以专利 IPC 分类和相似性匹配作为后续任务，该研究证明了该方法的改进效果，并公开了源代码和域适应预训练专利语言模型。

Abstract

Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. However successfully applying such models in highly specific language domains re

contextualized language models domain adaptation patent language linguistically informed masking ipc classification

发现论文，激发创造

基于体裁和主题特征的选择性屏蔽在专业领域中对语言模型的适应

在本文中，我们介绍了一种创新的掩码方法，利用流派和主题信息来定制语言模型以适用于专业领域，该方法基于词语的重要性对其进行排名，并优先选择重要性高的词进行掩码处理，通过在法律领域进行连续预训练实验证明了我们的方法在 LegalGLUE 基准测试中的有效性，同时提供免费使用的预训练语言模型和代码。

Feb, 2024

通过掩码特定损失提高预训练语言模型的敏感性：以生物医学 NER 为案例研究

通过适当加权领域特定术语并加入遮蔽策略，提高语言模型的灵敏度和检测领域特定术语的能力。

Mar, 2024

利用大型语言模型从隐私保护掩码中恢复

使用大型语言模型，本研究探索了替代标记符的可行性，以保护用户隐私，分析了不同方法的实验结果，在下游语言建模任务中实现了与原始数据训练相媲美的性能。

Sep, 2023

语言模型的持续学习

本研究提出了一种新的方法，使用一系列未标记的领域语料库来连续培训语言模型，从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制，它直接控制语言模型的更新，同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。

Feb, 2023

大型语言模型在专利图像检索中的应用

在专利审查中，基于图像的检索系统对于识别当前专利图像与现有技术之间的相似性至关重要，以确保专利申请的新颖性和非显而易见性。我们提出了一种基于语言的、分布感知的多模态专利图像特征学习方法，通过集成大型语言模型，丰富专利图像的语义理解，并通过我们提出的分布感知对比损失来提高在代表性类别中的性能。在 DeepPatent2 数据集上进行的大量实验表明，我们提出的方法在基于图像的专利检索方面取得了最先进或可比较的性能，平均准确率提高了 53.3％，前 10 个检索结果的召回率提高了 41.8％，前 10 个检索结果的 MRR 提高了 51.9％。此外，通过深入用户分析，我们探索了我们的模型在帮助专利专业人员进行图像检索方面的作用，凸显了该模型的实际适用性和效果。

Apr, 2024

带对抗训练的语言模型有效无监督领域自适应

本文探讨了如何利用适当的遮罩策略来提高基于掩蔽的语言模型在领域自适应任务上的性能，并提出了一种有效的训练策略，即通过对更难以恢复的标记进行对抗性遮蔽，以使模型更好地适应目标任务。通过六个无监督领域适应任务，该方法在命名实体识别方面显著优于随机遮蔽策略，提高了 1.64 个 F1 分数。

Oct, 2020

不要随意掩盖：通过掩盖域内关键词进行有效的领域自适应预训练

文章提出了一种新颖的面向任务无关的领域内预训练方法，通过选择性屏蔽领域内关键词来提高预训练的效果，并使用 KeyBERT 鉴别了这些关键词。研究结果显示基于该方法调整的模型性能优于其他模型，并且识别领域关键词的时间开销合理可接受。

Jul, 2023

MLIP：医学语言 - 图像预训练与遮蔽局部表示学习

本文旨在通过引入多对多局部关系建模来增强数据效率，从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练（MLIP）框架，通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据，同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示，MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。

Jan, 2024

InforMask: 语言模型预训练的无监督信息遮蔽

本文提出了 InforMask 方法，使用点互信息（PMI）来选择最具信息量的 tokens 进行蒙版，并进行两种优化以提高效率，该方法在 LAMA 和 SQuAD v1、v2 基准测试上明显优于随机蒙版和以前提出的蒙版策略。

Oct, 2022

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021