BERT、神经信息检索、布尔检索、否定检索
TwinBERT 模型可用于低延时 IR 系统中进行有效且高效的召回,通过将查询和文档的嵌入交叉组合来生成相似性分数,并且可以预先计算文档嵌入并将其缓存在内存中,从而显着提高了处理效率。
Feb, 2020
本研究针对 FEVER 事实抽取和验证挑战,探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法,并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明,我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率,并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。
Oct, 2019
本文利用三元组网络和基于 transformer 的语言模型,采用信息聚类方式对知识图谱中的实体或关系进行 embedding,提升关系预测准确性。通过在多个基准知识图谱上的 triplet 分类和关系预测任务的表现验证了 GilBERT 方法的优越性。
Nov, 2022
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
本文介绍了一种基于 BERT 的模型 MetricBERT,该模型通过学习嵌入文本并同时遵循传统的掩码语言任务,以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务,表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外,我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。
Aug, 2022
本文提出了一种名为 BERTRL 的解决方案,该方案使用预训练语言模型和 fine-tuning,通过将关系实例及其可能的推理路径作为训练样本,支持归纳学习并在 15 个应用中超越现有技术。
Mar, 2021
本文利用 BERT 作为特征提取层并引入语义增强的预训练任务,并使用大规模数据集进行实体识别预训练,提出软标签嵌入以有效传递实体识别和关系提取之间的信息,从而增强多头选择模型的信息提取能力,最终在测试集上获得了 0.892 的 F1 分数。
Aug, 2019
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型,结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果,并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。
May, 2022