测试 LLMs 对索引语移环境中土耳其指示性代词的理解能力

Jun, 2024

测试 LLMs 对索引语移环境中土耳其指示性代词的理解能力

Do LLMs Recognize me, When I is not me: Assessment of LLMs Understanding of Turkish Indexical Pronouns in Indexical Shift Contexts

PDF

Metehan Oğuz, Yusuf Umut Ciftci, Yavuz Faruk Bakman

TL;DR通过研究指代转换问题，本研究以土耳其语为例，评估了多语种大型语言模型在低资源语言中解决语法挑战的能力，并发布了专门设计用于此目的的土耳其数据集，发现即使是先进的模型如 GPT-4 在土耳其语的指代转换问题上也仅能达到中等性能。

Abstract

large language models (LLMs) have shown impressive capabilities in tasks such as machine translation, text summarization, question answering, and solving complex mathematical problems. However, their primary training on data-rich languages like English limits their performance in

large language models indexical shift turkish dataset low-resource languages

发现论文，激发创造

大型语言模型在代词解释中部分预先启动

通过对实验文本进行语言模式的分析，发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性，但是在情境学习的环境下，大型语言模式与人类的偏见适应存在差异。

May, 2023

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

LLM 在低资源翻译中的缺陷：检索和理解均为问题

本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语，探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明，即使是相对较小的语言模型，在提供了足够相关语言信息的情况下，能够通过提示上下文实现零样本低资源翻译。然而，提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上 7000 多种语言及其使用者的翻译系统中的限制。

Jun, 2024

利用大型语言模型自动化生成土耳其教育测验

这项研究通过使用大型语言模型自动生成土耳其教育内容的问答题，介绍了一种从教育内容中生成测验的新方法，为土耳其教育环境量身定制的教育技术开创了先河。同时，通过将这些语言模型应用于土耳其教育材料中，为自动化土耳其测验生成开辟了新的途径。

Jun, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

LLM 中能否生成与文化相关的常识问答数据？印尼文和巽他语案例研究

使用大型语言模型生成问题回答数据集，尤其是针对低资源语言，存在领域知识和文化细微差别的困难；实验证明最佳的大型语言模型 GPT-4 Turbo 能够生成具备充分知识的印度尼西亚语问题，但在苏丹尼斯语上表现欠佳，凸显中资源语言与低资源语言之间的性能差异；此外，我们对各种大型语言模型在生成数据集上进行基准测试，结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。

Feb, 2024

分析多语言 LLM 在多轮指令跟踪中的能力：阿拉伯语的案例研究

在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Oct, 2023

比较 LLM 提示与跨语言转移性能对土著和低资源巴西语言的影响

大型语言模型在低资源语言上的自然语言处理任务上表现较差，并提供了错误分析和实例解释。

Apr, 2024

LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

May, 2024