对话生成中的特定性控制数据精炼
本文提出一种新的负面训练方法,即 “负面蒸馏”,使用多级负面知识来避免生成对话模型中的泛化回复问题。 实验结果表明,与以前的负面训练方法相比,我们的方法性能显着提高。
May, 2022
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
Apr, 2021
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
本文提出一种基于知识蒸馏的对话模型训练框架,通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略,找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能,而不影响训练效率。
Feb, 2021
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
为了构建智能对话代理,针对当前有限的基于人物特征的对话数据不足以很好地训练对话生成模型的问题,提出了一种数据处理方法,该方法适用于任何基于人物特征的对话生成模型以提高其性能,并通过实验表明了其优越性。
Apr, 2022