多任务变形金刚模型中的新兴行为是什么？

EMNLPApr, 2021

多任务变形金刚模型中的新兴行为是什么？

What's in your Head? Emergent Behaviour in Multi-Task Transformer Models

Mor Geva, Uri Katz, Aviv Ben-Arie, Jonathan Berant

TL;DR该研究探讨了多任务训练中非目标头的行为，发现它们表现出新兴行为，可以解释目标任务或超出其原始任务范围，这表明多任务训练可用于解释性和泛化。

Abstract

The primary paradigm for multi-task training in natural language processing is to represent the input with a shared pre-trained language model

multi-task training natural language processing shared pre-trained language model non-target heads emergent behavior

发现论文，激发创造

多任务学习下多头注意力中的功能专业化解释与利用

通过对 Transformer 模型的多头注意力机制进行解释和多任务训练，提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象，并且这种训练策略能够提高多任务学习和迁移学习的性能，而不增加任何参数。

Oct, 2023

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

干细胞假说：利用 Transformer 编码器进行多任务学习面临的困境

通过多任务学习，结合 transformer 编码器，研究了多个 NLP 任务，发现多任务学习的注意力头之间相互干扰，提出干细胞假说解释在某些任务上具有天赋的注意力头不能被同时训练。同时，提出了新的无参考探针来验证该假说，通过标签分析展示了注意力头在五个任务之间如何被转换。

Sep, 2021

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

一种联合多任务模型：为多个 NLP 任务构建神经网络

本研究提出一种多任务学习模型，可以同时训练多种语言学层次的任务，并通过一种逐步增加深度的策略来解决越来越复杂的任务。该模型使用一个简单的正则化项来实现在提高某一任务的损失函数时，不影响其他任务的学习效果。实验结果表明，这个端到端的模型在标签、句法分析、相关性与蕴含等五种任务上取得了最先进或有竞争力的结果。

Nov, 2016

Heads 假设：一种统一的统计方法，用于理解 BERT 中的多头注意力

提出一种新的方法，通过假设检验来形式化简单而有效的分数，从而分类定位 transformer-based model 的 attention heads 中的不同角色，可以更准确地回答一些有关 BERT 模型的问题，如多种功能角色在同一 attention head 中的共存，attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。

Jan, 2021

使用任务级别 Mixture-of-Experts 挖掘和理解跨任务技能

本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型，该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配，其表现优于传统的多任务学习模型，同时也发现保留人类任务分类方法对提高模型性能有一定帮助。

May, 2022

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020