Apr, 2024

八爪鱼v2:面向超级特工的设备上语言模型

TL;DR我们的研究提出了一种新方法,通过使用20亿个参数的设备上模型,在准确率和延迟方面超越了GPT-4,并将上下文长度减少了95%。与基于RAG的函数调用机制Llama-7B相比,我们的方法将延迟提高了35倍,降低到适用于实际生产环境中各种边缘设备部署的水平,符合真实应用的性能要求。