让 LLMs 应对最新挑战！一个中文动态问答基准测试

Feb, 2024

让 LLMs 应对最新挑战！一个中文动态问答基准测试

Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark

Zhikun Xu, Yinghui Li, Ruixue Ding, Xinyu Wang, Boli Chen...

TL;DR为了提高中文大型语言模型（LLMs）的问答能力，本文引入了 CDQA，这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准，通过人工和模型相结合的流程获得高质量的数据，根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力，我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs，广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的，我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。

Abstract

How to better evaluate the capabilities of large language models (LLMs) is the focal point and hot topic in current LLMs research. Previous work has noted that due to the extremely high cost of iterative updates of LLMs, they are often unable to answer the latest dynamic questions well

large language models dynamic qa chinese llms cdqa question-answering ability

发现论文，激发创造

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

CaLMQA: 跨 23 种语言探索跨文化特定长篇问答

通过介绍 CaLMQA，一个涵盖 23 种语言的 2.6K 多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

LAiW：中国法律大型语言模型基准（技术报告）

我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力，我们将法学硕士的法律能力分为三个层次：基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估，主要关注基本法律自然语言处理能力。评估结果显示，尽管一些法学硕士在性能上优于它们的基础模型，但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。

Oct, 2023

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

TCMD：一个用于评估大型语言模型的中医问答数据集

通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Jun, 2024

QACP: 协助中文 Python 编程学习者的问题回答数据集

为了解决编程教育中的数据稀缺问题，本文提出了一个针对 Python 学习者的新的中文问答数据集，通过收集实际学生问题并根据不同维度进行分类，以提高在线编程教育的效果和质量，并为开发编程教学助手提供扎实的数据基础。同时，通过对各种处理和生成中文内容的大型语言模型进行全面评估，凸显了通用大型语言模型在计算机编程课程中作为智能教学助手的潜在局限性。

Jan, 2024