language model distillation | BriefGPT

关键词language model distillation

搜索结果 - 5

学习最大化互信息用于思路链提炼
利用连续思维蒸馏的知识蒸馏技术，通过多任务学习框架，最大化两个训练任务的特征表示的互信息，提出一种变分方法来优化小型模型的推理能力和标签预测的整合性，并在四个数据集上超越先进的 DSS 方法，为语言模型蒸馏和连续思维相关应用的未来研究提供有
PDF4 months ago
走向语言模型蒸馏中的能力差距之法则
利用大型教师语言模型（LM）向小型学生语言模型（LM）进行知识提取是一个热门领域。本文揭示了容量差的最佳点对教师 LM 和学生 LM 之间的实用性影响，同时呈现了一种新的计算性能平衡的学生 LM 模型（MiniMA），在 GPT4 评估中表
PDF8 months ago
基于语言模型蒸馏的无监督事实验证
通过自我监督特征蒸馏的 SFAVEL 方法，无需注释，实现了高质量事实验证和证据对齐，并在标准 FEVER 事实验证基准上取得了 + 8% 的准确率提升。
PDF9 months ago
RobBERTje: 一个被蒸馏的荷兰 BERT 模型
该论文讨论预训练模型以及使用语言模型精简方法创建的 RobBERTje 蒸馏模型，发现在包含长序列的任务上，与其教师模型相比，蒸馏模型具有更少的性别刻板印象和更好的训练和性能效果。
PDF2 years ago
AAAI从 BERT 中引出关系知识
该研究使用一种方法从预训练语言模型中提取关系知识，通过使用大量文本语料库，我们提取句子作为模板，并通过微调语言模型来预测一对词是否是某个关系的实例。
PDF5 years ago