TwinBERT: 双向结构 BERT 模型的知识蒸馏以实现高效检索
该研究比较了两种知识蒸馏模型在文档排序任务中的有效性并对 TinyBERT 模型进行了两种简化,结果显示出这些简化不仅能够提升 TinyBERT 的性能,而且还可以在提供 15 倍速度提升的同时显著优于 BERT-Base。
Sep, 2020
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
近年来,深度学习在解决各种自然语言处理问题上得到了大量应用。本文回顾了以 BERT 为代表的预训练模型在信息检索领域的方法,涵盖了长文档处理、语义信息整合、平衡效果与效率、术语权重预测、查询扩展和文档扩展等六个高级类别,并与基于解码器的生成式大型语言模型进行了比较,结果表明在特定任务上,经过调优的 BERT 编码器仍然具有更好的性能和更低的部署成本。最后,总结了调查的全面结果,并提出了未来研究的方向。
Feb, 2024
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022
本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。
Oct, 2021
利用 BERT 模型,在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决,这是一种终端到终端的用于搜索的系统设计,可以通过控制每个管道阶段的候选人数量来权衡质量和延迟,并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。
Oct, 2019
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
本研究介绍了 ColBERTv2,结合积极的残差压缩机制和去噪监督策略,以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。
Dec, 2021
ColBERT 是一种基于深度语言模型的信息检索方法,通过实现一种廉价而又强大的互动机制,将查询和文档分别进行编码,然后为它们建立细粒度相似性,从而利用深度语言模型的表现力,同时加快查询处理。
Apr, 2020