稳定各向异性正则化
本文研究了预训练语言模型中的同向性问题,提出了一种新的网络正则化方法:同向批量归一化(IsoBN),用于解决优化学习中掌握主要因素的问题,从而获得更多同向表现,提高了七项自然语言理解任务约 1.0 的绝对增量。
May, 2020
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法,提出一种基于令牌和序列的方法来处理密集检索模型的表示,优化 BERT 表示的各向同性分布,实验结果表明,这种方法可以显著提高文档排序的性能,并在处理不同的测试数据集时具有潜在的鲁棒性。
Sep, 2022
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
Apr, 2021
本文研究了如何在任务导向的对话系统中仅通过少量标注进行有效的意图分类器训练,提出了使用各向同性正则化改进有监督预训练的方法,并通过大量实验验证了其有效性。
May, 2022
本研究提出了一种基于现有推导的新型方法,通过对反应物的不同表征和聚类算法进行全面分析,可以量化簇的各向同性度量以及各向同性的平均度量,并在 Inorganic Crystal Structure Database 和 MNIST 数据集上进行了应用。
May, 2023