开放领域问答中分离式 Transformer 的可伸缩推理

Aug, 2021

开放领域问答中分离式 Transformer 的可伸缩推理

Decoupled Transformer for Scalable Inference in Open-domain Question Answering

Haytham ElFadeel, Stan Peshterliev

TL;DR本研究提出一种将 transformer MRC 模型解耦为输入组件和交叉组件的方法，以减少计算成本和延迟，通过知识蒸馏和学习表示压缩层来保持解耦 transformer 的准确性，并可使在线 MRC 的计算成本和延迟降低 30％-40％，与标准 transformer 相比，只有 1.2 个 F1 分数下降。

Abstract

Large transformer models, such as BERT, achieve state-of-the-art results in machine reading comprehension (mrc) for open-domain question answering (QA). However, transformers have a high →

transformer models mrc computational cost latency knowledge distillation

发现论文，激发创造

DC-BERT: 为高效上下文编码分离问题与文档

本文提出一种名为 DC-BERT 的上下文解码框架，实现了问题回答过程中高效的文档检索，并在 SQuAD Open 和 Natural Questions Open 数据集上取得了比现有技术方法更快和准确度稍低（QA 表现保持 98%）的结果。

Feb, 2020

模块化 Transformer：将 Transformer 压缩为模块化层以进行灵活高效的推理

本文提出了 Modular Transformers 框架，用于灵活的序列到序列模型压缩，通过模块化编码器 - 解码器并进行知识蒸馏，可以实现灵活的压缩比率从 1.1x 到 6x，并且在保持相对性能不变的情况下，可以根据需要灵活组装模块化层。

Jun, 2023

使用 Transformers 的无监督问答评估

本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示，并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确，其方法不需要任何标记数据且优于强启发式基线，在两个数据集和七个领域上均能够达到较高准确率。

Oct, 2020

DeFormer: 针对更快问答速度分解预训练变形金刚模型

DeFormer 是一种改进后的基于 Transformer 的问答模型，通过在低层使用问题和输入问句的局部自注意力代替全局自注意力，实现输入文本表示的与问题无关处理，从而可以预计算表示以减少运行时间，并增加简单蒸馏损失来提高速度，仅有 1% 的准确率下降。

May, 2020

基于远程监督的 Transformer 模型在电商产品问答中的应用

提出了一种基于 Transformer 模型的实时电子商务产品页面问答系统，在 CQA 对中检索到与用户查询相关的问题答案对，该模型学习统一的句法和语义表示，同时利用 CQA 对进行远程监督，通过在离线和在线实验中的大规模评估，证明了该框架在电子商务 QA 流量方面具有很好的性能。

Apr, 2021

一次编码，多次并行解码：高效 Transformer 解码

基于 Transformer 的 NLP 模型在计算成本上限制了其应用场景。我们引入了一种新的编码器 - 解码器模型配置（PiD），通过一次编码和并行解码输出来提高结构化输出和问答任务的效率，避免了重复的输入编码以及减小解码器的内存占用，从而获得了可比较或更好性能并具有高达 4.6 倍加速的计算减少。

Mar, 2024

基于 Transformer 的语言模型的知识蒸馏再探

针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题，该研究提出一种基于 knowledge distillation 的压缩方法，并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面，最终提供一套最佳实践指南。

Jun, 2022

级联变压器：用于高效答案句选择的应用

本文介绍了级联变压器模型的简单而有效技术，其中通过一系列排名器来修剪批处理中的一部分候选项，从而在推理时显着提高吞吐量，与现有模型相比，我们的方法在不影响准确性的情况下将计算量减少了 37％，并在两个英文问答数据集上进行了评估。

May, 2020

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

基于 Transformer 模型的法语问答任务的可用性研究

研究通过对 Transformer-based architectures 的改进和优化，尤其是在数据增强、超参数优化和跨语言转移方面，提高了法语低资源情况下的问答表现，并引入了一种紧凑的法语 FrALBERT 模型。

Jul, 2022