多任务变形金刚模型中的新兴行为是什么?
通过对 Transformer 模型的多头注意力机制进行解释和多任务训练,提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象,并且这种训练策略能够提高多任务学习和迁移学习的性能,而不增加任何参数。
Oct, 2023
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
通过多任务学习,结合 transformer 编码器,研究了多个 NLP 任务,发现多任务学习的注意力头之间相互干扰,提出干细胞假说解释在某些任务上具有天赋的注意力头不能被同时训练。同时,提出了新的无参考探针来验证该假说,通过标签分析展示了注意力头在五个任务之间如何被转换。
Sep, 2021
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。
Aug, 2021
本研究提出一种多任务学习模型,可以同时训练多种语言学层次的任务,并通过一种逐步增加深度的策略来解决越来越复杂的任务。该模型使用一个简单的正则化项来实现在提高某一任务的损失函数时,不影响其他任务的学习效果。实验结果表明,这个端到端的模型在标签、句法分析、相关性与蕴含等五种任务上取得了最先进或有竞争力的结果。
Nov, 2016
提出一种新的方法,通过假设检验来形式化简单而有效的分数,从而分类定位 transformer-based model 的 attention heads 中的不同角色,可以更准确地回答一些有关 BERT 模型的问题,如多种功能角色在同一 attention head 中的共存,attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。
Jan, 2021
本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型,该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配,其表现优于传统的多任务学习模型,同时也发现保留人类任务分类方法对提高模型性能有一定帮助。
May, 2022