测试 LLMs 对索引语移环境中土耳其指示性代词的理解能力
通过对实验文本进行语言模式的分析,发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性,但是在情境学习的环境下,大型语言模式与人类的偏见适应存在差异。
May, 2023
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语,探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明,即使是相对较小的语言模型,在提供了足够相关语言信息的情况下,能够通过提示上下文实现零样本低资源翻译。然而,提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上 7000 多种语言及其使用者的翻译系统中的限制。
Jun, 2024
这项研究通过使用大型语言模型自动生成土耳其教育内容的问答题,介绍了一种从教育内容中生成测验的新方法,为土耳其教育环境量身定制的教育技术开创了先河。同时,通过将这些语言模型应用于土耳其教育材料中,为自动化土耳其测验生成开辟了新的途径。
Jun, 2024
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
使用大型语言模型生成问题回答数据集,尤其是针对低资源语言,存在领域知识和文化细微差别的困难;实验证明最佳的大型语言模型 GPT-4 Turbo 能够生成具备充分知识的印度尼西亚语问题,但在苏丹尼斯语上表现欠佳,凸显中资源语言与低资源语言之间的性能差异;此外,我们对各种大型语言模型在生成数据集上进行基准测试,结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。
Feb, 2024
在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学)以英文或阿拉伯文指令时,模型的回答会有所差异。我们发现,使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后,我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。
Oct, 2023
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024