开放领域问答中分离式 Transformer 的可伸缩推理
本文提出一种名为 DC-BERT 的上下文解码框架,实现了问题回答过程中高效的文档检索,并在 SQuAD Open 和 Natural Questions Open 数据集上取得了比现有技术方法更快和准确度稍低(QA 表现保持 98%)的结果。
Feb, 2020
本文提出了 Modular Transformers 框架,用于灵活的序列到序列模型压缩,通过模块化编码器 - 解码器并进行知识蒸馏,可以实现灵活的压缩比率从 1.1x 到 6x,并且在保持相对性能不变的情况下,可以根据需要灵活组装模块化层。
Jun, 2023
本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示,并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确,其方法不需要任何标记数据且优于强启发式基线,在两个数据集和七个领域上均能够达到较高准确率。
Oct, 2020
DeFormer 是一种改进后的基于 Transformer 的问答模型,通过在低层使用问题和输入问句的局部自注意力代替全局自注意力,实现输入文本表示的与问题无关处理,从而可以预计算表示以减少运行时间,并增加简单蒸馏损失来提高速度,仅有 1% 的准确率下降。
May, 2020
提出了一种基于 Transformer 模型的实时电子商务产品页面问答系统,在 CQA 对中检索到与用户查询相关的问题答案对,该模型学习统一的句法和语义表示,同时利用 CQA 对进行远程监督,通过在离线和在线实验中的大规模评估,证明了该框架在电子商务 QA 流量方面具有很好的性能。
Apr, 2021
基于 Transformer 的 NLP 模型在计算成本上限制了其应用场景。我们引入了一种新的编码器 - 解码器模型配置(PiD),通过一次编码和并行解码输出来提高结构化输出和问答任务的效率,避免了重复的输入编码以及减小解码器的内存占用,从而获得了可比较或更好性能并具有高达 4.6 倍加速的计算减少。
Mar, 2024
针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题,该研究提出一种基于 knowledge distillation 的压缩方法,并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面,最终提供一套最佳实践指南。
Jun, 2022
本文介绍了级联变压器模型的简单而有效技术,其中通过一系列排名器来修剪批处理中的一部分候选项,从而在推理时显着提高吞吐量,与现有模型相比,我们的方法在不影响准确性的情况下将计算量减少了 37%,并在两个英文问答数据集上进行了评估。
May, 2020
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
研究通过对 Transformer-based architectures 的改进和优化,尤其是在数据增强、超参数优化和跨语言转移方面,提高了法语低资源情况下的问答表现,并引入了一种紧凑的法语 FrALBERT 模型。
Jul, 2022