Jan, 2025
推进波斯语的检索增强生成:语言模型、全面基准和优化最佳实践的开发
Advancing Retrieval-Augmented Generation for Persian: Development of
Language Models, Comprehensive Benchmarks, and Best Practices for
Optimization
Sara Bourbour Hosseinbeigi, Sina Asghari, Mohammad Ali Seif Kashani, Mohammad Hossein Shalchian, Mohammad Amin Abbasi
TL;DR本研究解决了在低资源语言中构建检索增强生成(RAG)系统的特定障碍,特别是波斯语复杂的形态学和多样的句法。通过引入波斯语特定模型和全面的基准框架,研究显示MatinaSRoberta在上下文相关性和检索准确性上优于之前的嵌入方法,这为波斯语的RAG系统发展和自然语言处理应用如搜索引擎和法律文件分析提供了重要的潜力。