E-BERT: BERT 高效有效的实体嵌入

Nov, 2019

E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT

Nina Poerner, Ulli Waltinger, Hinrich Schütze

TL;DR使用维基百科词向量与 BERT 预训练模型相结合，构建了一种名为 E-BERT 的模型，可以更准确地处理自然语言中的实体，提高无监督问答、有监督关系分类和实体链接的效果。

Abstract

We present a novel way of injecting factual knowledge about entities into the pretrained bert model (Devlin et al., 2019): We align Wikipedia2Vec entity vectors (Yamada et al., 2016) with bert's native wordpiece

bert entity vectors unsupervised question answering supervised relation classification entity linking

发现论文，激发创造

面向实体搜索的实体感知 Transformer

本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型，结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果，并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。

May, 2022

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

使用简单的神经端对端实体链接探究 BERT 中的实体知识

使用 BERT 模型结合用于上下文文本表示的模型来一并训练实体链接系统，在一个实体链接基准数据集上，我们的模型得分第二，但在其他自然语言处理基准数据集上对于实体知识的了解并没有提高模型的表现。

Mar, 2020

BERT 的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层 BERT 激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

EELBERT：通过动态嵌入实现微小模型

EELBERT 是一种基于 transformer 模型（例如 BERT）的压缩方法，通过在模型的输入嵌入层中使用动态嵌入计算来实现对下游任务准确性的最小影响。通过替换嵌入层，我们成功地显著减小了模型的大小，并在 GLUE 基准测试中证明了 EELBERT 与传统 BERT 模型之间仅有微小的回归差异。这一方法使得我们能够开发出最小的模型 UNO-EELBERT，其大小为 14MB，GLUE 得分仅相对于完全训练的 BERT-tiny 低 4%。

Oct, 2023

建模潜在实体类型信息以提升实体链接

提出一种基于 BERT 预训练和实体相似度分数的实体链接模型，通过注入潜在的类型信息到实体嵌入中，并结合一种基于 BERT 的实体相似度分数，显著提高了实体链接模型的性能。

Jan, 2020

E-BERT: 电商领域短语和产品知识增强语言模型

提出了一个名为 E-BERT 的统一的预训练框架，旨在解决 BERT 在 E-commerce 相关任务中无法很好支持两种级别的领域知识的问题，该框架通过自适应混合掩蔽实现了短语级别知识的保留以及通过邻居产品重构实现了利用产品级别知识，研究表明 E-BERT 在评论问答、方面提取、方面情感分类和产品分类等四个下游任务中有着良好的表现。

Sep, 2020

基于 BERT 的多头选择联合实体关系抽取

本文利用 BERT 作为特征提取层并引入语义增强的预训练任务，并使用大规模数据集进行实体识别预训练，提出软标签嵌入以有效传递实体识别和关系提取之间的信息，从而增强多头选择模型的信息提取能力，最终在测试集上获得了 0.892 的 F1 分数。

Aug, 2019

用于推荐系统的多 BERT 嵌入

我们提出了一种使用 Sentence-BERT（SBERT）和 RoBERTa 两种最先进的自然语言处理模型结合生成文档嵌入的新方法。通过将句子视为标记并为其生成嵌入，我们的方法可以捕捉文档内句子间和句子间的关系，从而生成更具语义丰富性和准确性的文档嵌入。通过对 Goodreads 数据集上的图书推荐任务进行实验，我们评估了我们的模型，并证明了其在生成嵌入方面的有效性。与仅使用 SBERT 生成的文档嵌入相比，我们使用 MULTI-BERT 模型生成的文档嵌入在嵌入质量方面始终表现更好，通过精确度作为评估指标，我们发现我们的模型能够捕捉到更细微的语义关系，从而实现更准确的推荐。总体而言，我们的结果证明了我们的方法的有效性，并表明这是一个改进推荐系统性能的有前途的方向。

Aug, 2023

针对实验室协议的领域特定 BERT 表示进行命名实体识别

通过使用 Bio-Bert 模型进行实体标记，我们的模型在医疗领域的数据集上取得显著的性能提升。

Dec, 2020