RepLiQA:用于评估LLMs在未见参考内容上的问答数据集
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
本研究重点研究了大型语言模型在回答当前世界知识测试问题方面生成文本的真实性,提出了FreshQA动态问答基准和FreshPrompt强化性指示方法,通过使用相关和最新信息从搜索引擎检索来提高大型语言模型的性能。
Oct, 2023
基于LooGLE评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集,重点关注 T5 和 UL2 等生成模型,我们评估了LLMs在不同问题类型上的性能。研究发现,经过微调的LLMs在某些情况下可以超越现有技术在一些方面的表现,即使没有完全编码所有输入上下文,对于是/否问题的精确匹配 (EM) 和 F1 分数有7-8个点的增加。然而,这些模型在抽取性问答方面遇到了挑战,在与现有技术相比落后于10个以上的点,并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用,强调了该领域需要先进解决方案的必要性。此外,我们强调了评估评价指标对性能评估的重要影响,并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高LLMs性能的未来工作的需求,突显了这一领域面临的持续挑战。
Dec, 2023
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
通过对24种模型的11个评估标准进行综合评估,本文首先回顾了当前的评估方法——多项选择题回答(MCQA),并突出了MCQA的一些潜在缺点,接着引入了RWQ-Elo评分系统,通过24种大型语言模型的竞争性对战,模拟现实世界的使用情景,最后分析了系统特点、与先前排行榜的对比,揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。
Mar, 2024
使用英文小说构建的NovelQA评估长上下文具有深层文本理解能力的LLMs的表现,结果强调了LLMs在多次推理、注重细节的问题和超过100,000个标记的极长输入方面面临的挑战,强调了进一步改进LLMs以提高其长上下文理解和计算文学研究的必要性。
Mar, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024