迷你是上品:捷克行业应用语义嵌入模型
本文旨在探究最新的词嵌入方法对于捷克语的应用效果,对其进行了词类、语法和语义属性角度的分析,并在新语料库上使用了Word2Vec和GloVe算法进行了实验,实验结果表明该方法在捷克语的NLP领域中是有效的。
Aug, 2016
本文介绍了针对阿姆哈拉语的不同语义模型训练方法,并将其用于自然语言处理任务。经实验,我们发现基于 RoBERTA 的语境嵌入法的新模型表现优于旧的预训练的多语言模型和基于 word2Vec 模型的词嵌入法的新模型。
Nov, 2020
本文介绍了首个基于BERT和ALBERT架构的捷克语单语言表示模型的训练过程,使用超过340,000个句子进行预训练,并在9个数据集上超越了多语言模型的表现,同时在九个数据集上取得了新的最优结果。
Mar, 2021
本研究挑战了从预训练语言模型(PLMs)中获得句子嵌入所必须的显式单字限制的普遍观点,并通过实验证明了这种方法对于判别模型或生成型PLMs的精调并非必需。在此基础上,我们提出了两种创新的提示工程技术,可以进一步增强PLMs原始嵌入的表达能力:假装的思路链和知识增强,并详细研究了导致其成功的潜在因素。
Apr, 2024
对句子或短文档进行嵌入式编码的编码器模型,用于语义搜索和主题建模。本文介绍了一种专门为此目的微调的SwissBERT编码器模型版本,采用对瑞士四种国家语言(德语、法语、意大利语和罗曼什语)进行了预训练,使用对应文章子集的对比学习进行微调,实验证明SentenceSwissBERT在瑞士特定环境下的文档检索和文本分类任务中表现对原始SwissBERT模型和可比基准模型的准确性。该模型可供研究使用。
May, 2024
通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析,本文概述了通用文本嵌入模型的最新进展,突出了该领域的关键贡献和局限,并提出了潜在的灵感未来研究方向。
May, 2024
评估公开可用模型及其领域自适应变体所得到的多种句子嵌入,通过对点检索准确性和置信区间(95%)的评估,建立了一种获取不同嵌入相似度阈值的系统方法并发现fine-tuning可提高点检索准确性和置信区间,并且结合预训练可以使置信区间更加紧密,同时通过分析和报告top-K、正确句子和随机句子相似度的分布重叠,与检索准确性和相似度阈值之间的显著相关性,分析了检索准确性变化是否可归因于嵌入的各向同性,结果显示各向同性不能归因于更好的检索性能,然而,改进检索准确性的领域自适应也改善了各向同性,并且我们证明领域自适应使特定领域嵌入与一般领域嵌入更加分离。
Jun, 2024