Mar, 2024

学习最大化互信息用于思路链提炼

TL;DR利用连续思维蒸馏的知识蒸馏技术,通过多任务学习框架,最大化两个训练任务的特征表示的互信息,提出一种变分方法来优化小型模型的推理能力和标签预测的整合性,并在四个数据集上超越先进的 DSS 方法,为语言模型蒸馏和连续思维相关应用的未来研究提供有益指导。