Condenser: 用于密集检索的预训练模型架构
本文提出了 coCondenser 方法,将 Condenser 预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与 RocketQA 相当的性能。
Aug, 2021
本文提出一种基于自学习方法的预训练自编码语言模型,该模型通过训练编码器输出高质量的文本序列嵌入来解决解码器可能利用语言模式的问题,实验结果表明该模型能够显著提高稠密检索模型的效果和少样本学习能力。
Feb, 2021
本研究采用一种简单的方法,有效地将预训练转换器中的文本表示聚合成稠密向量,从而提高了在不同领域和零样本评估下单向量方法的鲁棒性,进而表明 MLM 预训练变形金刚可以用于将文本信息编码成单个向量以进行密集检索。
Jul, 2022
本研究探讨使用预训练的只有解码器的 Transformer 语言模型,来增强抽象摘要中的样本效率,并在 CNN/Daily Mail 数据集上进行实验以证实其有效性。实验结果表明,相比于预训练的编码器 - 解码器网络,该模型在低数据量的情况下有着更好的 ROUGE-2 得分。
May, 2019
通过 attention condensers,本研究提出了 TinySpeech,这是一种低占用空间、高效率的深度神经网络结构,适用于边缘设备的本地语音识别,其神经网络结构简单,参数数量、计算时间、内存消耗都极少。
Aug, 2020
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本文提出了一种被称为 CoCon 的内容控制器,可以在细粒度的水平上控制预训练的基于 Transformer 的语言模型以生成目标内容的自然语言文本,并通过实验证明了其有效性。
Jun, 2020
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
Jan, 2024