不懂得如何提问的人:为数码新手搭建一个关于科技问题的数据集
这篇研究论文介绍了一种基于搜索引擎日志的、具有多角度和非事实性问题的数据集,该数据集对于最强大的大型语言模型来说具有挑战性,并展示了对这些问题进行分解和替代回答技术的好处。
Feb, 2024
我们介绍了 TeleQnA,这是首个用于评估大型语言模型(LLMs)在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案,来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架,并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集,对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明,这些模型在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。此外,我们的结果展示了将电信知识背景纳入模型显著提高了其性能,从而揭示了电信基础模型的需求。最后,将数据集分享给了活跃在电信领域的专业人士,并将他们的表现与 LLMs 进行了基准测试。研究结果表明,在电信知识方面,LLMs 可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力,突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。
Oct, 2023
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用 13 种专门设计的工具进行交互以回答问题。
Jun, 2023
我们提出了一个具有争议性的问题数据集的构建方法,通过评估不同的大型语言模型(LLMs)在这个数据集上的表现,揭示了它们如何处理具有争议性的问题以及它们采取的立场,从而为我们提供了对 LLMs 与争议性问题的互动的理解,为改进它们对复杂社会议题的理解和处理铺平了道路。
Oct, 2023
本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中,并进行深入分析和提出未来数据集开发的建议,以提高多语种问答系统的覆盖面。
May, 2021
对于发展中的大型语言模型,数据集从业人员的职责是什么?这篇论文通过回顾性分析和半结构化访谈,发现数据质量是最重要的因素,但对于数据质量的定义和评估方法缺乏一致性,论文讨论了这一现象的潜在原因和整合的机会。
Feb, 2024
介绍了 CyberMetric,这是一个包含 10,000 个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较,结果显示 LLMs 在几乎所有网络安全方面表现优于人类。
Feb, 2024
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
当面临领域特定问题时,大语言模型(LLMs)可能会遇到问题,如知识遗忘、知识重复、知识幻觉以及知识毒性,这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题,建议对训练数据进行多样化,微调模型,提高透明度和可解释性,并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是,未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理,确保它们持有高的道义和道德标准。
Oct, 2023
为了提高中文大型语言模型(LLMs)的问答能力,本文引入了 CDQA,这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准,通过人工和模型相结合的流程获得高质量的数据,根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力,我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs,广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的,我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。
Feb, 2024