使用 TF-Ranking 中的 BERT 进行排序学习
本文研究了预先训练的 BERT 在排名任务中的表现和行为,探索了在两种排名任务中优化 BERT 的几种不同方法,并实验证明了 BERT 在问题回答焦点的段落排名任务中的强有效性,以及 BERT 作为强交互式序列到序列匹配模型的事实。
Apr, 2019
本文介绍了一个基于查询的段落重排的 BERT 的简单重新实现,该系统在 TREC-CAR 数据集上处于技术先进地位,是 MS MARCO 段落检索任务排行榜中的前列,优于以前的技术领先 27%(相对于 MRR @ 10)。
Jan, 2019
利用 BERT 模型,在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决,这是一种终端到终端的用于搜索的系统设计,可以通过控制每个管道阶段的候选人数量来权衡质量和延迟,并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。
Oct, 2019
本文研究了使用传统信息检索方法进行初检索,然后采用神经网络再排序模型的两步文档排序,使用了适合长文档的 BERT 模型变种 Longformer 在 MS MARCO 文档再排序任务上获得了最佳性能。
Sep, 2020
本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题,组成了两个高级别的现代技术,即在多阶段架构中进行 reranking 的 transformer 模型和直接进行排名的密集检索技术,并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析,同时也展望了研究的未来方向。
Oct, 2020
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
Mar, 2020
本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果,发现它们在相关性概念上存在重要的差异,旨在鼓励未来改进研究。
Apr, 2022
本文提出了一种基于 Bert-Large 的双阶段排序方案,首先通过精细的查询 / 标题关键词匹配检索候选商品,然后利用经过人工标注数据的 BERT-Large 进行分类,同时在多个 GPU 主机上实现并行预测和基于 Tensorflow 的 C++ 分词自定义操作。在数据挑战中,我们的模型在监督阶段的总 F1 分数上获得了第一名,在最终阶段的平均每个查询的 F1 分数上获得了第二名。
Aug, 2020
PreTTR 算法广泛应用在各种排名任务中的预训练 transformer 网络,能够消除实践中计算昂贵的限制,提高实时排名的速度,通过训练压缩层来匹配注意力分数,可以有效地减少存储需求,而排名性能不会受到重大影响。
Apr, 2020