基于分支协作的异构学习对话生成

Mar, 2023

基于分支协作的异构学习对话生成

Heterogeneous-Branch Collaborative Learning for Dialogue Generation

Yiwei Li, Shaoxiong Feng, Bin Sun, Kan Li

TL;DR使用对话属性的双重群协作知识蒸馏，降低分支之间的同质性问题，并在两个公共领域的对话数据集中实现了超越先前工作的表现。

Abstract

With the development of deep learning, advanced dialogue generation methods usually require a greater amount of computational resources. One promising approach to obtaining a high-performance and lightweight model is knowledge distillation, which relies heavily on the pre-trained power

deep learning knowledge distillation collaborative learning dialogue attributes open-domain dialogue

发现论文，激发创造

在线知识蒸馏的同行协作学习

该论文提出了一种名为 “Peer Collaborative Learning” 的在线知识蒸馏方法，该方法能够将在线集成和网络协作融入一个统一的框架中，并在 CIFAR-10，CIFAR-100 和 ImageNet 等数据集上得到了验证及优于其他方法的效果。

Jun, 2020

双向蒸馏的多视角特征表示在对话生成中的应用

本文提出一种基于知识蒸馏的对话模型训练框架，通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略，找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能，而不影响训练效率。

Feb, 2021

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

图神经网络的在线对抗蒸馏

本文提出一种在线对抗蒸馏方法，通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中，我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能，以提高蒸馏性能。

Dec, 2021

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

基于响应、特征和关系的知识蒸馏分类

这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Jun, 2023

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023