本文探讨了对比学习在文档分类中的应用。与传统方法相比,利用对比学习方法能更好的学习到文档的表征,并通过实验证明线性分类器利用这些表示能提高文档分类的准确性。
Mar, 2020
本文评估了将平行四边形模型应用于现代单词嵌入的类比关系能够捕捉基于人类关系相似度判断的能力,并发现其在某些语义关系上表现更好,但同时提供了基于向量空间内在几何约束的更深层次局限性证据,对一阶相似性产生的古典结果进行类比。
May, 2017
通过对比损失的简单调优,句子编码器的性能可以得到显著提高。本文理论上和实验上展示出,在对比学习过程中模型获得了怎样的特征,即基于信息论的数量对词汇进行隐式加权。本文还使用多种模型、多个数据集、两种度量模型隐式加权的方法(集成渐变法和 SHAP)以及两个信息论数量(信息增益和自信息量)进行了全面实验。结果提供了对对比调优强调信息丰富词汇的经验证据。
Oct, 2023
本文通过概率定义新的释义来重新诠释 W2V 生成的词向量中的线性行为,证明了线性关系存在,并确定了差错项。
Jan, 2019
本文通过分解和实证分析经典算数词类比测试,提出了两种新的指标,用于解决标准测试存在的问题,并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性;结果表明,尽管标准的词类比测试存在缺陷,但一些受欢迎的词嵌入方法仍然编码语言规律。
Oct, 2020
我们提出了一种修改对比损失函数来调整学习特征嵌入几何结构的方法,通过使用原型在每个批次中引导学习嵌入和原型的几何一致性,并在深度神经网络上基于基准视觉数据集进行了一系列实验证实。
本篇论文介绍了一种将分布式语义学从单个单词扩展到词对、短语和句子等的方法,通过使用组件词中的成对相似性来比较两个元组,从而实现关系相似性(类比)和组成相似性(释义)之间的转换,并通过监督学习生成组合函数。在衡量单词对之间的关系相似性(SAT 类比和 SemEval 2012 任务 2)和名词修饰短语和单个词之间的组成相似性方面取得了最优结果。
Oct, 2013
将单词类比任务扩展为一对 X 形式,通过关系发现问题应用于历史武装冲突的数据集上,利用经过训练的英语新闻文本的迭代词嵌入模型作为语义信息源,使用余弦距离的函数阈值来降低假阳性数量,最后发布一个可用于历史武装冲突数据上的一对 X 类比评估的测试集。
Jul, 2019
通过引入一种新的基于主题向量集合的对比学习方法,并将其明确地作为基于梯度的多目标优化问题,本研究旨在实现一个平衡 ELBO 和对比目标之间的权衡的帕累托稳定解,广泛的实验证明我们的框架在主题连贯性、主题多样性和下游性能方面始终产生更高性能的神经主题模型。
Feb, 2024
通过利用平行语料库和非平行语料库,采用对比学习等方法,有效提高了预训练多语言语言模型的跨语言传递能力,同时显著提高了检索性能,且计算成本较低。
Oct, 2022