Jun, 2024

电信领域句子嵌入的指南

TL;DR评估公开可用模型及其领域自适应变体所得到的多种句子嵌入,通过对点检索准确性和置信区间(95%)的评估,建立了一种获取不同嵌入相似度阈值的系统方法并发现fine-tuning可提高点检索准确性和置信区间,并且结合预训练可以使置信区间更加紧密,同时通过分析和报告top-K、正确句子和随机句子相似度的分布重叠,与检索准确性和相似度阈值之间的显著相关性,分析了检索准确性变化是否可归因于嵌入的各向同性,结果显示各向同性不能归因于更好的检索性能,然而,改进检索准确性的领域自适应也改善了各向同性,并且我们证明领域自适应使特定领域嵌入与一般领域嵌入更加分离。