部分随机化对话回复 Transformer 权重以提高多样性
通过强化学习在训练期间动态选择层并将它们绑定在一起,我们可以减少深度转换网络中可训练参数的数量。实验评估表明,相对于基准转换模型,我们的模型在困惑度方面略有改善,并且大大减少了可训练参数的数量。特别地,在训练期间的内存消耗比传统训练方法低一个数量级。
Jan, 2024
本文提出了变分 Transformer(VT)算法,将变分自注意力前馈序列模型与 CVAE 的变分性质相结合,从而有效处理对话响应生成领域中高熵任务的问题,并在多个对话数据集上获得了性能提升。
Mar, 2020
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。
Oct, 2023
文中介绍了在自然语言模型的预训练阶段中,通过引入控制性的随机性(即噪音),可以提高模型的微调性能,并在具体的下游任务中探索噪音添加的效果。通过两个下游任务,即联合实体识别与关系抽取以及文本摘要,发现添加此类噪音能够提升性能。
Oct, 2023
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
May, 2023
通过重新参数化模型权重,将 Transformer 编码器层中的模型权重缩小,可以降低模型大小,减轻设备内存的压力,并在语音处理任务上取得了显著的性能改进。
Oct, 2023
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
通过使用基于位置的重加权函数,我们提出了 Learned Proportions (LeaP) 和 LeaPformers 模型,通过依赖于比例序列重加权的方法和动态比例生成模块,实现了更灵活的注意力集中模式,成功应用于线性化变压器模型,在多个任务上达到了最佳质量和吞吐量的平衡,取得了竞争性的结果。
May, 2024
为了加速端到端语音识别中的推理,本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer,其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量,并使用瞥见语言模型(GLM)实现语义嵌入,最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中,Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。
Jun, 2022
本文提出一种专门为特定任务对话系统设计的预训练模型 PRAL,并设计采用多种技术来提高模型性能及引入了对话预训练数据集,实验结果表明 PRAL 在三种不同任务中表现优异,超越或与最先进的方法持平。
Apr, 2020