Feb, 2024

Nomic Embed:训练可复现的长上下文文本嵌入器

TL;DR该技术报告描述了 nomic-embed-text-v1 的训练过程,这是第一个完全可再现、开源、开放权重、开放数据、8192 上下文长度的英文文本嵌入模型,在短文本和长文本任务中优于 OpenAI Ada-002 和 OpenAI text-embedding-3-small。我们以 Apache 2 许可证发布了训练代码和模型权重。与其他开源模型相比,我们发布了一个训练数据加载器,包含 2.35 亿个策划好的文本对,可以完全复制 nomic-embed-text-v1 模型。您可以在此 https URL 找到用于复制模型的代码和数据。