E-BERT: BERT 高效有效的实体嵌入
本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型,结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果,并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。
May, 2022
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
使用 BERT 模型结合用于上下文文本表示的模型来一并训练实体链接系统,在一个实体链接基准数据集上,我们的模型得分第二,但在其他自然语言处理基准数据集上对于实体知识的了解并没有提高模型的表现。
Mar, 2020
该论文系统地研究了面向通用文本表示的分层 BERT 激活,以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中,句子级别的嵌入与两个最先进的模型进行了比较,而段落级别的嵌入则在四个问答(QA)数据集上进行了学习排名问题设置的评估。结果表明,将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。
Oct, 2019
EELBERT 是一种基于 transformer 模型(例如 BERT)的压缩方法,通过在模型的输入嵌入层中使用动态嵌入计算来实现对下游任务准确性的最小影响。通过替换嵌入层,我们成功地显著减小了模型的大小,并在 GLUE 基准测试中证明了 EELBERT 与传统 BERT 模型之间仅有微小的回归差异。这一方法使得我们能够开发出最小的模型 UNO-EELBERT,其大小为 14MB,GLUE 得分仅相对于完全训练的 BERT-tiny 低 4%。
Oct, 2023
提出一种基于 BERT 预训练和实体相似度分数的实体链接模型,通过注入潜在的类型信息到实体嵌入中,并结合一种基于 BERT 的实体相似度分数,显著提高了实体链接模型的性能。
Jan, 2020
提出了一个名为 E-BERT 的统一的预训练框架,旨在解决 BERT 在 E-commerce 相关任务中无法很好支持两种级别的领域知识的问题,该框架通过自适应混合掩蔽实现了短语级别知识的保留以及通过邻居产品重构实现了利用产品级别知识,研究表明 E-BERT 在评论问答、方面提取、方面情感分类和产品分类等四个下游任务中有着良好的表现。
Sep, 2020
本文利用 BERT 作为特征提取层并引入语义增强的预训练任务,并使用大规模数据集进行实体识别预训练,提出软标签嵌入以有效传递实体识别和关系提取之间的信息,从而增强多头选择模型的信息提取能力,最终在测试集上获得了 0.892 的 F1 分数。
Aug, 2019
我们提出了一种使用 Sentence-BERT(SBERT)和 RoBERTa 两种最先进的自然语言处理模型结合生成文档嵌入的新方法。通过将句子视为标记并为其生成嵌入,我们的方法可以捕捉文档内句子间和句子间的关系,从而生成更具语义丰富性和准确性的文档嵌入。通过对 Goodreads 数据集上的图书推荐任务进行实验,我们评估了我们的模型,并证明了其在生成嵌入方面的有效性。与仅使用 SBERT 生成的文档嵌入相比,我们使用 MULTI-BERT 模型生成的文档嵌入在嵌入质量方面始终表现更好,通过精确度作为评估指标,我们发现我们的模型能够捕捉到更细微的语义关系,从而实现更准确的推荐。总体而言,我们的结果证明了我们的方法的有效性,并表明这是一个改进推荐系统性能的有前途的方向。
Aug, 2023