ACLJun, 2021

DoT: 一种高效的双 Transformer 用于具备表格的自然语言处理任务

TL;DR本研究提出了一种名为 DoT 的双变形器模型,其中一个较浅的修剪变形器用于选择最佳 K 个关键词,然后一个较深的任务特定变形器将这 K 个关键词作为输入,通过优化任务特定的损失函数,两个变形器共同训练。 DoT 模型虽然产生了轻微的精度降低,但提高了训练和推理时间至少 50%。