有条件的师生学习
本文提出采用对抗方式的教师 - 学生学习方法,以解决语音信号在目标领域里的可靠性问题,能够学习各种条件下的非监督领域适应,并抑制多种因素导致的条件变异,达到了比较好的词错误率改进效果。
Apr, 2018
本文提出一种用于领域自适应的方法,不需要转录数据,而是使用源域和目标域的无标记平行数据,利用教师 / 学生学习方法在目标域中训练模型,并在两种场景下进行评估,实现了显著的准确率提升,尤其是当使用模拟训练数据时,增加了模型的鲁棒性。
Aug, 2017
我们使用 Teacher-Student Curriculum Learning(TSCL)框架进行自动课程学习,该框架依赖于一系列的 Teacher 算法,这些算法使得学生通过选择更好的子任务进行训练,并通过解决遗忘问题来提高学习速度。我们在两个任务中展示出 TSCL 的性能优于手工设计的 curricula,其中包括了对一个 Minecraft 的迷宫进行自动解决,并且在一个数量级上更快地学习。
Jul, 2017
本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题,并使用知识蒸馏使学生模型学习教师模型的输出概率,取得了在中英文系统中对于域外测试数据语音质量的稳定提升。
Nov, 2019
通过提出一个三组件框架,利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号,我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明,相较于没有任何信号进行微调的情况,我们提出的两阶段框架平均带来了 20.79% 左右的相对提升,适用于四个复杂推理任务。
Jun, 2024
该论文提出了一种使用教师 - 学生学习方法,采用逐层教学和目标偏移机制的超快速语音分离 Transformer 模型,相较于从头开始训练的小型 Transformer 模型,在 LibriCSS 数据集上,能够将语音分离的单词错误率(WER)降低 5% 以上,并利用更多的未标记语音数据实现超过 10% 的相对 WER 降低。
Apr, 2022
提出一种基于学生的教师网络训练框架 SoTeacher,通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法,实验证明该方法适用于几乎所有的教师 - 学生架构对,并且可以显著、一致地提高学生的性能。
Jun, 2022
本文介绍一种基于一致性方法来改善半监督学习(SSL)效果的新模型 —— 双生学生(Dual Student),它将原模型中的教师模型替换为另一个学生模型;还引入了一个新的概念 —— 稳定样本,利用它来设计一个稳定约束以便于模型的训练;本文还讨论了新模型的两种变体,并在 SSL 基准测试中对其进行了广泛的实验,证明了本文提出的新模型可以显著提高分类性能和领域适应性。
Sep, 2019
语言模型可以通过适应原始文本学习到复杂的语言理解技能。我们在本文中提出了一种称为条件微调的简单改进方法,它在进行语言建模时进行了上下文的条件限制。我们证明一个上下文可以 “解释掉” 某些语料库统计信息并使模型避免学习它们。通过这种方式,条件微调实现了对语料库的选择性学习,学习了对下游任务有用的知识,同时避免学习无用的语料库统计信息,如主题偏差。这种选择性学习效果导致了更少的遗忘和更好的稳定可塑性权衡,在域微调中潜在受益于与语言模型的终身学习。
Jun, 2024