Jun, 2024

超网络中的注意力

TL;DR使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。