CEDR:上下文嵌入在文档排序中的应用
通过引入 Contextual Document Embedding Reranking (CODER),可以显著提高基于对比学习的密集检索模型的检索性能,特别是当更多的相关信息可用时,如在 TripClick 集合中观察到的情况下,可以获得大幅度的改进并取得新的最优结果。
Dec, 2021
本文提出了一种基于分层上下文表示的模型,通过句子级和文档级表示来提高实体识别模型中全局信息的利用,其中包括标签嵌入和注意机制以及键值内存网络,实验证明该模型在三个基准数据集上表现出优越的效果。
Nov, 2019
使用 RepBERT 来进行文档和查询的表示,通过上下文嵌入的固定长度实现,使用嵌入的内积作为相关性分数,在 MS MARCO Passage Ranking 任务中,RepBERT 在所有初始检索技术中实现了最新的结果。
Jun, 2020
本文使用预训练的 BERT 模型来处理表格检索任务,研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练,实验表明这一方法在公共数据集上表现卓越。
May, 2020
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文提出一种基于预训练语言模型 (BERT) 的方法,能够直接利用所有句子中的所有单词的上下文信息进行文档级理解的任务,且在四个数据集中取得了最先进的结果。
Sep, 2019
本文对三种最近提出的上下文嵌入方法进行了广泛评估,并在通用依赖关系 2.3 的 89 个语料库中的 54 种语言中,以词性标注,词形还原和依赖关系分析三个任务中使用 BERT,Flair 和 ELMo 作为预先训练的嵌入输入。
Aug, 2019
本文介绍了使用 Transformer-Kernel 模型进行文档重排序的方法,并通过 TREC 2019 深度学习赛道的评价来表明其有效性。
Dec, 2019