迷你是上品：捷克行业应用语义嵌入模型

Nov, 2023

迷你是上品：捷克行业应用语义嵌入模型

Some Like It Small: Czech Semantic Embedding Models for Industry Applications

Jiří Bednář, Jakub Náplava, Petra Barančíková, Ondřej Lisický

TL;DR该研究侧重于开发和评估小型捷克句子嵌入模型，通过替代方法进行预训练、知识蒸馏和无监督对比微调来克服标记数据有限的问题，并展示了这些模型在捷克搜索引擎Seznam.cz中的实际应用，取得了比常规模型更小8倍和更快5倍的竞争性性能。

Abstract

This article focuses on the development and evaluation of Small-sized czech sentence embedding models. Small models are important components for real-time industry applications in resource-constrained environments. Given the limited availability of labeled Czech data, alternative appro

发现论文，激发创造

用于探索捷克语单词嵌入的新单词类比语料库

本文旨在探究最新的词嵌入方法对于捷克语的应用效果，对其进行了词类、语法和语义属性角度的分析，并在新语料库上使用了Word2Vec和GloVe算法进行了实验，实验结果表明该方法在捷克语的NLP领域中是有效的。

Aug, 2016

给阿姆哈拉语引入各种语义模型: 多项任务和数据集上的实验和评估

本文介绍了针对阿姆哈拉语的不同语义模型训练方法，并将其用于自然语言处理任务。经实验，我们发现基于 RoBERTA 的语境嵌入法的新模型表现优于旧的预训练的多语言模型和基于 word2Vec 模型的词嵌入法的新模型。

Nov, 2020

Czert--用于语言表达的类波津(BERT)捷克模型

本文介绍了首个基于BERT和ALBERT架构的捷克语单语言表示模型的训练过程，使用超过340,000个句子进行预训练，并在9个数据集上超越了多语言模型的表现，同时在九个数据集上取得了新的最优结果。

Mar, 2021

以词和句相似性重新思考评估

本文提出了EvalRank作为一种新的内部评估方法，它在60多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

评估信息检索嵌入式API

通过对话题建模，本文分析了语义嵌入API在真实检索场景中的行为，如能力，成本及最佳实践等问题，为读者提供了适合其需要的合适的服务建议。

May, 2023

基于摘要描述的文本检索

本文提出了新的检索模型，结合了指令模型和基于检索模型，使用大型语言模型的正负对进行训练，以改进当前文本嵌入技术性能。

May, 2023

增强生成语言模型中的句子嵌入的简单技术

本研究挑战了从预训练语言模型（PLMs）中获得句子嵌入所必须的显式单字限制的普遍观点，并通过实验证明了这种方法对于判别模型或生成型PLMs的精调并非必需。在此基础上，我们提出了两种创新的提示工程技术，可以进一步增强PLMs原始嵌入的表达能力：假装的思路链和知识增强，并详细研究了导致其成功的潜在因素。

Apr, 2024

对SwissBERT编码模型进行微调，用于嵌入句子和文档

对句子或短文档进行嵌入式编码的编码器模型，用于语义搜索和主题建模。本文介绍了一种专门为此目的微调的SwissBERT编码器模型版本，采用对瑞士四种国家语言（德语、法语、意大利语和罗曼什语）进行了预训练，使用对应文章子集的对比学习进行微调，实验证明SentenceSwissBERT在瑞士特定环境下的文档检索和文本分类任务中表现对原始SwissBERT模型和可比基准模型的准确性。该模型可供研究使用。

May, 2024

文本嵌入的最新进展：MTEB基准测试中最佳方法的综述

通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析，本文概述了通用文本嵌入模型的最新进展，突出了该领域的关键贡献和局限，并提出了潜在的灵感未来研究方向。

May, 2024

电信领域句子嵌入的指南

评估公开可用模型及其领域自适应变体所得到的多种句子嵌入，通过对点检索准确性和置信区间（95%）的评估，建立了一种获取不同嵌入相似度阈值的系统方法并发现fine-tuning可提高点检索准确性和置信区间，并且结合预训练可以使置信区间更加紧密，同时通过分析和报告top-K、正确句子和随机句子相似度的分布重叠，与检索准确性和相似度阈值之间的显著相关性，分析了检索准确性变化是否可归因于嵌入的各向同性，结果显示各向同性不能归因于更好的检索性能，然而，改进检索准确性的领域自适应也改善了各向同性，并且我们证明领域自适应使特定领域嵌入与一般领域嵌入更加分离。

Jun, 2024