Oct, 2023

TeleQnA:评估大型语言模型的基准数据集 电信知识

TL;DR我们介绍了 TeleQnA,这是首个用于评估大型语言模型(LLMs)在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案,来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架,并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集,对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明,这些模型在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。此外,我们的结果展示了将电信知识背景纳入模型显著提高了其性能,从而揭示了电信基础模型的需求。最后,将数据集分享给了活跃在电信领域的专业人士,并将他们的表现与 LLMs 进行了基准测试。研究结果表明,在电信知识方面,LLMs 可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力,突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。