KNOT：使用最优输运进行知识蒸馏来解决自然语言处理任务

COLINGOct, 2021

KNOT：使用最优输运进行知识蒸馏来解决自然语言处理任务

KNOT: Knowledge Distillation using Optimal Transport for Solving NLP Tasks

Rishabh Bhardwaj, Tushar Vaidya, Soujanya Poria

TL;DR我们提出了一种新的方法，使用最优传输进行知识蒸馏 (KNOT)，从多个教师网络中提取自然语言的语义知识传输到一个学生网络中。此方法通过学习最小化分配给标签的概率分布的最优传输成本到教师模型的概率加权和的学生模型（全局）来训练学生模型，新的语义距离（SD）度量衡量预测和真实标签分布之间的语义接近程度。该方法在三个 NLP 任务上表现出了比基准更好的 SD 性能，并在标准准确性和 F1 度量上与基于熵的蒸馏表现相当。

Abstract

We propose a new approach, knowledge distillation using optimal transport (KNOT), to distill the natural language semantic knowledge from

knowledge distillation optimal transport natural language teacher networks semantic distance

发现论文，激发创造

利用最优传输距离进行知识蒸馏，提高神经跨语言摘要生成的效果

本文提出了基于知识蒸馏的跨语言摘要框架，通过 Sinkhorn Divergence 实现了师生之间的知识转移，并在跨语言摘要数据集上证明了该方法的高效性。

Dec, 2021

多任务强化学习中的知识精炼优化传递

通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Sep, 2023

分层最优输运用于文档表示

该论文介绍了基于分布和话题建模的层次最优输运方法作为文档之间的元距离，以量化文档之间的相似性。这种方法具有解释性和可扩展性，并在 k-NN 分类方面表现良好。

Jun, 2019

使用最优传输提取特权多模态信息进行表情识别

多模情感识别模型在实验室环境中取得了显著的表现，但在野外环境中，由于训练所使用的模态的不可用性或质量问题，这些模型存在困难。通过引入特权信息来进行深度学习模型的训练，以利用仅在训练期间可用的额外模态数据。本文提出一种基于最优输运的结构化知识蒸馏机制 (PKDOT) 方法，通过计算余弦相似度矩阵并选择前 k 个锚点，以得到更稳定的蒸馏过程。实验证明该方法在两个不同问题上的性能优于现有的特权知识蒸馏方法，具有模态和模型无关性。

Jan, 2024

邻域感知最优传输学习在低资源仇恨言论检测中的应用

提出了一种新的训练策略，利用基于邻域的框架和 Optimal Transport，以改善对低资源仇恨言论语料库的系统性能，实现相对距离建模的灵活性。

Oct, 2022

通过最优输运改进序列到序列学习

本研究提出了一种基于全局序列级别的指导和最优传输的解决方案来提高序列到序列模型的性能并捕捉长程语义结构，经实验证明该方法在多种 NLP 任务中能够实现一致的改进。

Jan, 2019

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏

提出一种基于学生的教师网络训练框架 SoTeacher，通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法，实验证明该方法适用于几乎所有的教师 - 学生架构对，并且可以显著、一致地提高学生的性能。

Jun, 2022

非参数知识蒸馏在端到端语音翻译中的解耦

无需转录，用非参数存储库从数据角度提高语音翻译数据效率

Apr, 2023

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023