大规模语言模型的多语言文档问答评估方法
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
通过从不同语言中汇集知识,该研究介绍了一种增强大型语言模型在多语言环境下性能的方法。实验证明,该方法显著提升了性能,特别是在减少语言性能差异方面。
Jun, 2024
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
Oct, 2023
通过对大型语言模型的评估,本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略,我们发现 LLMs 在这些语言中的回答存在明显差异,表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。
Oct, 2023
这篇论文研究了多语言预训练语言模型在问答任务中的校准性质,包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术,并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。
Nov, 2023
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024