Jun, 2022

使用乐高揭示变形金刚:一项综合推理任务

TL;DR提出了一个综合推理任务 LEGO,研究了 Transformer 架构如何学习这个任务,特别关注预训练和数据组成等数据效应,从而提出了一种假设,在 LEGO 任务中预训练有所帮助,因为存在一定的结构化注意力模式,经实验证实。同时提出 LEGO 注意力模块,是 vanilla 注意力头的可替换选择,显著减少 Flops 并维持或甚至提高模型的大规模预训练性能。