通过子词参数重建词向量嵌入
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
我们提出了一种新的紧凑嵌入结构,通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程,来减少预训练语言模型的内存占用,牺牲高达 4% 的绝对准确率。我们的实验结果表明,子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比,达到了超过 99.8% 的压缩率。
Aug, 2023
本研究提出了利用子单词嵌入和其他权重重用的方法,其中在多层输入嵌入模型中,应从下到上连续捆绑层以在输出时重用,最终建立的最佳词素感知模型在多种语言下可以比竞争的词级模型具有更好的性能且模型参数减少 20%-87%。
Feb, 2018
本研究提出了一种利用预训练词向量空间中的子空间进行集合运算的新方法,并在 Text Concept Set Retrieval 和 Semantic Textual Similarity 任务中进行了实验证明了该方法的有效性。
Oct, 2022
通过构建一个辅助任务来重建词嵌入集成,从而规范主任务,从而在使用各种标记的词相似度数据集进行监督的基础上,显著改善了词相似度数据集的表现,并在序列标记和句子分类中进行了词元嵌入的重建。
Sep, 2018
本文提出了一种可扩展的词向量训练方法,通过将输入空间进行分区来缩放到大规模文本语料库,同时不牺牲向量的性能,并在各种 NLP 基准测试中实现了可比较的甚至高达 45%的性能改进。
Dec, 2018
本文探讨了将子词信息加入到计数模型中是否能像预测模型一样带来正面效果。我们评估了不同类型的子词 (n-gram 和无监督词素),结果证实了子词信息对于学习罕见和超出词汇表词汇的表示的重要性。
May, 2018
本研究针对阅读理解任务过往的机器学习研究,发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择,比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨,为从事该领域研究的学者提供建议。
Mar, 2017
本文介绍了一种利用无标签文本数据的无监督预训练词向量,通过加入未监督辅助损失(unsupervised auxiliary loss)来扩展分类模型的任务损失,确保学习到的词表示包含了从监督损失组件中学到的 task-specific 特征和从未监督损失组件中学到的更通用的特征,并在临床记录的叙述包含关系抽取任务上对其进行了评估,使用通用类型的词性标注器作为语言资源,在 THYME 数据集上实现了技术上的提高。
Aug, 2018