CPopQA: 通过 LLMs 对文化概念的热度进行排名
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势,进一步探索其合作潜力。
Jun, 2024
该论文提出了一种概念一致性测量方法,通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应,来测量 LLM 对相关概念的理解程度。研究表明,目前的 LLM 在常识推理方面存在显著差异,并能够向构建具有理解力的人工智能迈进一步。
Sep, 2022
使用大型语言模型生成问题回答数据集,尤其是针对低资源语言,存在领域知识和文化细微差别的困难;实验证明最佳的大型语言模型 GPT-4 Turbo 能够生成具备充分知识的印度尼西亚语问题,但在苏丹尼斯语上表现欠佳,凸显中资源语言与低资源语言之间的性能差异;此外,我们对各种大型语言模型在生成数据集上进行基准测试,结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。
Feb, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
本研究探索了大型语言模型在教育应用中的能力,重点关注概念图恢复和问题回答。研究通过引入 TutorQA,一个新的专家验证的自然语言处理基准,评估了大型语言模型在领域特定的概念图和问题回答中的性能,证明其零 - shot 概念图恢复具有竞争力,且 CGLLM 生成的答案具有更精细的概念。
Feb, 2024
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集,重点关注 T5 和 UL2 等生成模型,我们评估了 LLMs 在不同问题类型上的性能。研究发现,经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现,即使没有完全编码所有输入上下文,对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而,这些模型在抽取性问答方面遇到了挑战,在与现有技术相比落后于 10 个以上的点,并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用,强调了该领域需要先进解决方案的必要性。此外,我们强调了评估评价指标对性能评估的重要影响,并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求,突显了这一领域面临的持续挑战。
Dec, 2023