关键词language model distillation
搜索结果 - 5
- 学习最大化互信息用于思路链提炼
利用连续思维蒸馏的知识蒸馏技术,通过多任务学习框架,最大化两个训练任务的特征表示的互信息,提出一种变分方法来优化小型模型的推理能力和标签预测的整合性,并在四个数据集上超越先进的 DSS 方法,为语言模型蒸馏和连续思维相关应用的未来研究提供有 - 走向语言模型蒸馏中的能力差距之法则
利用大型教师语言模型(LM)向小型学生语言模型(LM)进行知识提取是一个热门领域。本文揭示了容量差的最佳点对教师 LM 和学生 LM 之间的实用性影响,同时呈现了一种新的计算性能平衡的学生 LM 模型(MiniMA),在 GPT4 评估中表 - 基于语言模型蒸馏的无监督事实验证
通过自我监督特征蒸馏的 SFAVEL 方法,无需注释,实现了高质量事实验证和证据对齐,并在标准 FEVER 事实验证基准上取得了 + 8% 的准确率提升。
- RobBERTje: 一个被蒸馏的荷兰 BERT 模型
该论文讨论预训练模型以及使用语言模型精简方法创建的 RobBERTje 蒸馏模型,发现在包含长序列的任务上,与其教师模型相比,蒸馏模型具有更少的性别刻板印象和更好的训练和性能效果。
- AAAI从 BERT 中引出关系知识
该研究使用一种方法从预训练语言模型中提取关系知识,通过使用大量文本语料库,我们提取句子作为模板,并通过微调语言模型来预测一对词是否是某个关系的实例。