Dec, 2023

基于语言模型的嵌入方式测量文本的分布变化优势

TL;DR利用大型语言模型(LLMs)生成的嵌入向量,我们提出了一种基于聚类的算法来测量文本数据的分布漂移,并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标,并从 18 个月的实际部署中总结了经验教训。