Oct, 2023

请用英语问我:用于医疗问题的大型语言模型的跨语评估

TL;DR本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略,我们发现 LLMs 在这些语言中的回答存在明显差异,表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。