对比学习的多语言表征蒸馏
本文提出了一种新的多语种文本嵌入生成模型 —— VMSST,通过在 $N$ 种语言的并行数据上运行,通过一个引入的近似算法,在多语种语境中鼓励源分离,我们在比较学习多语种文本嵌入的对比和基于生成的方法时,对其进行了仔细的大规模比较,并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估,从而证明了其优越性。
Dec, 2022
本研究使用神经机器翻译框架跨越六种完全不同的语言,在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式,有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式,对我们的模型学习出的 140 万个句子表示进行比较,并研究了相似句子的特征。实验证据表明,嵌入空间中相似的句子实际上具有高度的语义相关性,但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。
Apr, 2017
通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术,学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面,还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上,我们的模型都能胜过之前的最佳成果,并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。
Apr, 2014
在本研究中,我们提出了一种面向低资源场景的对齐方法:MAML-Align,利用基于优化的模型无关元学习器 MAML 进行元蒸馏学习,从面向单语和双语语义搜索的 Teacher 元迁移模型 T-MAML 中提取知识,再将其转移到面向多语言语义搜索的 Student 模型 S-MAML 中。我们的实证结果表明,相对于朴素微调方法,我们的元蒸馏方法不仅提升了基于句子转换器的强基线的效果,而且显著超过了 MAML 所提供的增益。此外,多语言元蒸馏学习还提高了对未知语言的泛化能力。
Sep, 2023
本文介绍了一种轻量级双变压器体系结构,用于生成记忆高效的跨语言句子表示。同时,还提出了一种新的跨语言语言模型,并引入了两个计算良好的句子级对比学习任务,以提高跨语言句子表示空间的对齐度,从而补偿生成任务的学习瓶颈。实验结果表明,在跨语言句子检索和多语言文档分类方面,与竞争模型相比,我们提出的新的训练任务有效性更高。
May, 2021
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
使用 SimCSE 论文中的适用对比学习方法,将基于知识蒸馏模型 DistilBERT 的模型架构进行调整,以解决自然语言处理模型在语义文本相似度上效果不佳且过大无法部署为轻量级边缘应用的问题,最终得到的轻量级模型 DistilFace 在 STS 任务的 Spearmans 相关性上达到了 72.1,相比 BERT Base 提升了 34.2%。
Jan, 2024